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PREFÁCIO À NONA EDIÇÃO 


Nesta Nona Edição, atendendo a pedidos de leitores, incluímos a utilização de pacotes do 
Repositórios livre R. Mas continuamos a usar, em alguns exemplos, os pacotes SPlus e Minitab. 

Para não aumentar muito o tamanho do livro, a maneira encontrada foi colocar uma pequena 
introdução ao R, dados e os scripts para reproduzirem os exemplos do livro, na página: 
<www.ime.usp.br/-pam/EstBas.html>. 

O leitor também poderá ver os exemplos completos (scripts, gráficos etc.) na página: 
rpubs.com/EstatBasica. 

Além disso, os problemas suplementares de cada capítulo foram separados dos complementos 
metodológicos. Correções foram feitas em diversos pontos. Quero agradecer de modo especial a 
Kim Samejima pela colaboração na preparação da página relativa ao R. 

Os depoimentos de colegas sobre o papel do Wilton no desenvolvimento da Estatística do 
Brasil agora encontram-se, também, na página do livro. 

São Paulo, junho de 2017. 
Pedro A. Morettin 


PREFÁCIO À OITAVA EDIÇÃO 


Essa edição difere da anterior em dois aspectos. O primeiro capítulo foi reescrito e alguns 
novos problemas foram acrescentados. Além disso, procuramos corrigir erros presentes na 
edição anterior. Agradecemos a diversos colegas e alunos que apontaram erros e fizeram 
comentários sobre o livro. 

São Paulo, junho de 2013. 


Pedro A. Morettin 


PREFÁCIO À SÉTIMA EDIÇÃO 


Nesta Sétima Edição fizemos diversas correções no texto, acrescentamos novos problemas e 
algumas seções foram reescritas. Mais do que tudo, essa nova edição é uma homenagem ao 
Professor Wilton de Oliveira Bussab, que nos deixou prematuramente em maio desse ano. 

Apresentamos, a seguir, diversos depoimentos de colegas sobre o papel fundamental que 
Wilton teve no desenvolvimento da Estatística no Brasil. 

De minha parte, perdi um amigo de mais de quarenta anos. As vidas de sua família, amigos, 
colegas e alunos não serão mais as mesmas. Será mais difícil atualizar esse livro, fruto de uma 
colaboração estreita durante tantos anos. Wilton sempre foi a parte “pé no chão” dessa parceria, 
dada a sua grande experiência e vivência de problemas reais. Com sua partida, perderei eu, 
perderão os leitores. Mas a vida continua, e seu legado será lembrado por todos que tiveram o 
privilégio de com ele conviver. 

São Paulo, julho de 2011. 
Pedro A. Morettin 


PREFÁCIO À SEXTA EDIÇÃO 
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Nesta edição atendemos à solicitação de leitores que sugeriram modificações em alguns 
tópicos considerados difíceis. Por exemplo, o tópico sobre quantis empíricos agora traz o cálculo 
utilizando o histograma, deixando a definição mais geral para a seção de Problemas e 
Complementos. 

Inúmeras correções foram feitas na edição anterior, à medida que as sucessivas tiragens foram 
editadas. Nesta sexta edição outros erros foram corrigidos, mas sabemos que diversos persistirão! 
Agradecemos aos diversos leitores que nos enviaram correções e sugestões. 

Acrescentamos problemas a diversas seções do livro e substituímos o conjunto de dados sobre 
o Brasil (CD-Brasil) com informações atualizadas da Contagem da População 2007 feita pelo 
IBGE. Os dados também estão disponíveis na página: <http://www.ime.usp.br/-pam>. 


Os Autores 


PREFÁCIO À QUINTA EDIÇÃO 


Esta edição é uma revisão substancial da edição anterior deste livro. Cinco novos capítulos 
foram adicionados, e os demais foram revisados e atualizados. 

Cremos que este texto, com a escolha adequada dos tópicos, possa ser utilizado por alunos de 
diversas áreas do conhecimento. O Site do Professor, disponível na Internet 
<http://www .editorasaraiva.com.br>, fornece uma discussão mais longa sobre roteiros 
apropriados para cursos de diferentes níveis. 

Com essa filosofia em mente, procuramos incluir no texto uma quantidade de informação 
substancial em cada capítulo. Obviamente caberá ao professor escolher o material apropriado 
para cada curso desenvolvido. 

O livro é dividido em três partes. A primeira trata da análise de dados unidimensionais e 
bidimensionais, com atenção especial a métodos gráficos. Pensamos que a leitura dessa parte é 
essencial para o bom entendimento das demais. Recomendamos que o aluno trabalhe com dados 
reais, embora isso não seja uma necessidade essencial, pois normalmente um primeiro curso de 
estatística é dado no início do programa do aluno, que não possui ainda um conhecimento sólido 
dos problemas de sua área. A segunda parte trata dos conceitos básicos de probabilidades e 
variáveis aleatórias. Finalmente, na terceira parte, estudamos os tópicos principais da inferência 
estatística, além de alguns temas especiais, como regressão linear simples. Um capítulo sobre 
noções de simulação foi adicionado, pois tais noções são hoje fundamentais em muitas áreas. 

O uso de algum pacote computacional é fortemente recomendado para a prática dos conceitos 
desenvolvidos. Apresentamos exemplos de aplicações utilizando alguns desses pacotes: Minitab, 
Excel e SPlus. Mas, evidentemente, outros pacotes poderão ser usados. 

No final do livro, apresentamos vários conjuntos de dados que poderão ser utilizados pelos 
alunos. Esses dados também estão disponíveis nas seguintes páginas da Internet: 


<http://www .ime.usp.br/“pam> 
<http://www .editorasaraiva.com.br> 
Finalmente, agradecemos a todos aqueles que enviarem sugestões e comentários com a 


finalidade de melhorar a presente edição. Para tanto, além do correio normal, os leitores poderão 
usar o Sac da editora Saraiva. 


Os Autores 
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Capítulo 1 


Preliminares 


1.1 Introdução 


Em alguma fase de seu trabalho, o pesquisador depara-se com o problema de analisar e 
entender um conjunto de dados relevante ao seu particular objeto de estudos. Ele necessitará 
trabalhar os dados para transformá-los em informações, para compará-los com outros resultados 
ou, ainda, para julgar sua adequação a alguma teoria. 

De modo bem geral, podemos dizer que a essência da Ciência é a observação e que seu 
objetivo básico é a inferência. 

A inferência estatística é uma das partes da Estatística. Esta, por sua vez, é a parte da 
metodologia da Ciência que tem por objetivo a coleta, redução, análise e modelagem dos dados, 
a partir do que, finalmente, faz-se a inferência para uma população da qual os dados (a amostra) 
foram obtidos. Um aspecto importante da modelagem dos dados é fazer previsões, a partir das 
quais se pode tomar decisões. 

Os cientistas usam o chamado Método Científico para testar suas teorias ou hipóteses. 
Podemos resumir o método nos seguintes passos: 

() O cientista formula uma questão, problema ou teoria. Ele pode querer, também, testar alguma 
hipótese. 

(ii) Para responder a essas questões, ele coleta informação que seja relevante. Para isso, ele pode 
planejar algum experimento. Em determinadas áreas (Astronomia, por exemplo), o 
planejamento de experimentos não é possível (ou factível); o que se pode fazer é observar 
algum fenômeno ou variáveis de interesse. 

(iii) Os resultados do passo (ii) são usados para obter conclusões, mesmo que não definitivas. 

(iv) Se for necessário, repita os passos (ii) e (iii), ou mesmo reformule suas hipóteses. 

Um estatístico pode ajudar no passo (i) e certamente pode ser indispensável nos passos (ii) e 
(iii). Vamos considerar um exemplo para ilustrar o método. 


Exemplo 1.1 (i) Em Economia, sabe-se, desde Keynes, que o gasto com o consumo de pessoas 


(vamos indicar essa variável por C) é uma função da renda pessoal disponível (indicada por Y). 
Ou seja, podemos escrever, formalmente, 


C=f9), 


para alguma função f. 

(i) Para investigar com é essa relação entre C e Y, para uma comunidade específica, um 
economista colhe dados dessas variáveis para um conjunto de indivíduos 1 = [1, L, ... 1), 
obtendo a amostra (Y,, Cj), ..., (Y,, C,). Esse é um exemplo em que o experimento consiste em 


planejar a obtenção de uma amostra de modo adequado, representando assim a comunidade 
(população). 

(iii) Um gráfico de dispersão (veja o Capítulo 4), entre Ye C, i= 1, 2, ..., n, como o da Figura 
1.1, permite estabelecer um modelo (veja a seção seguinte) tentativo para a variável C como 
função da variável Y. 


Figura 1.1 Relação entre rendimento e consumo de 20 indivíduos. 


18 20 22 24 2.6 28 3.0 


Suponha que seja razoável postular o modelo 
C=au+bY,+e,i=1,2,...,n. (1.1) 


Nesse modelo, (Y, C), i = 1,...., n, são variáveis observadas, enquanto e, i = 1, ...., n, são 
variáveis não observadas. O parâmetro a é denominado consumo autônomo (fazendo-se Y = O na 
Equação (1.1)) e B é a propensão marginal a consumir. 

Na Figura 1.1, temos representados os rendimentos e gastos de consumo de n = 20 indivíduos. 
Na reta que aparece na figura, os coeficientes foram obtidos usando métodos dos Capítulos 11 e 
16. Nesse caso, obtemos a = 1,48 e 8 = 0,71, aproximadamente. 

Veremos, mais a frente, que poderemos fazer suposições sobre os erros e, por exemplo, que 
tenham média zero. 

Nem sempre um modelo linear da forma (1.1) é adequado, como mostra o exemplo a seguir. 


Exemplo 1.2 O interesse aqui é a relação entre renda e idade para n = 256 mulheres brasileiras com 
mestrado e doutorado (dados da PNAD 2004, IBGE). Na Figura 1.2 temos os dados e uma 
função estimada da forma R = f(I), onde R indica a renda e I, a idade. Nesse caso, uma função 
paramétrica como aquela em (1.1) pode não ser adequada, e temos que usar métodos não 
paramétricos para estimar a forma de f. Observamos um valor atípico perto de 48 anos de idade. 
Uma queda da renda é observada entre as idades 35 e 40 anos, talvez explicada pelo efeito de 
geração. Usualmente, uma função paramétrica quadrática é utilizada em problemas como esse, 
que não explicariam essa queda. 


Figura 1.2 Relação entre Renda e Idade para mulheres brasileiras. 
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Na primeira parte deste livro, estaremos interessados na redução, análise e interpretação dos 
dados sob consideração, adotando um enfoque que chamaremos de Análise Exploratória de 
Dados (AED). Nesta abordagem, tentaremos obter dos dados a maior quantidade possível de 
informação, que indique modelos plausíveis a serem utilizados em uma fase posterior, a análise 
confirmatória de dados (ou inferência estatística). 

Tradicionalmente, uma análise descritiva de dados limita-se a calcular algumas medidas de 
posição e variabilidade, como a média e variância, por exemplo. Contrária a esta tendência, uma 
corrente mais moderna, liderada por Tukey (1977), utiliza principalmente técnicas gráficas, em 
oposição a resumos numéricos. Isto não significa que sumários não devam ser obtidos, mas uma 
análise exploratória de dados não deve se limitar a calcular tais medidas. 


1.2 Modelos 


Fundamentalmente, quando se procede a uma análise de dados, busca-se alguma forma de 
regularidade ou padrão ou, ainda, modelo, presente nas observações. 


Exemplo 1.1 (continuação) O que se espera, intuitivamente, no caso em questão é que os gastos de 
um indivíduo estejam diretamente relacionados com os seus rendimentos, de modo que é 
razoável supor uma “relação linear” entre essas duas quantidades. Os pontos da Figura 1.1 não 
estão todos, evidentemente, sobre uma reta; essa seria o nosso padrão ou modelo. A diferença 
entre os dados e o modelo constitui os resíduos. Veja a Figura 1.3. 

Podemos, então, escrever de modo esquemático: 


DADOS = MODELO + RESÍDUOS 
ou, ainda, 
D=M+R.(1.2) 

A parte M é também chamada parte suave (ou regular ou, ainda, previsível) dos dados, 
enquanto R é a parte aleatória. A parte R é tão importante quanto M, e a análise dos resíduos 
constitui uma parte fundamental de todo trabalho estatístico. Basicamente, são os resíduos que 
nos dizem se o modelo é adequado ou não para representar os dados. De modo coloquial, o que 


se deseja é que a parte R não contenha nenhuma “suavidade”, caso contrário mais “suavização” é 
necessária. 


Uma análise exploratória de dados busca, essencialmente, fornecer informações para 
estabelecer (1.2). 


Figura 1.3 Relação entre dado, modelo e resíduo. 
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1.3 Aspectos Computacionais 


O desenvolvimento rápido e constante na área de computação foi acompanhado pela 
introdução de novas técnicas de análise de dados, notadamente de métodos gráficos e de métodos 
chamados de computação intensiva (como o método bootstrap, que será tratado brevemente 
neste livro). 

Para a implementação dessas técnicas, pacotes estatísticos foram desenvolvidos e que 
atualmente são usados em larga escala, tanto no meio acadêmico como em indústrias, bancos, 
órgãos de governo etc. Esses pacotes podem ser genéricos ou específicos. Os pacotes genéricos 
(como o Minitab, SPlus, SPSS, SAS etc.) são adequados para realizar uma gama variada de 
análises estatísticas. Os pacotes específicos são planejados para realizar análises particulares de 
uma determinada área. 

Por outro lado, os pacotes podem exigir ou não uma maior experiência computacional dos 
usuários. Alguns operam com menus, e seu uso é mais simples. Outros requerem maior 
familiaridade com o computador e são baseados em linguagens próprias. 

Do ponto de vista de sistema operacional, a maioria dos pacotes é programada para uso em 
microcomputadores que operam com o sistema Windows. Todavia, um número razoável de 
pacotes já tem versões para o sistema Linux. 

Listamos, na Tabela 1.1, alguns pacotes genéricos utilizados na área de Estatística. 
Salientamos, também, que existem planilhas à venda no mercado que possuem opções para 
certas técnicas estatísticas. Dentre essa planilhas mencionamos o Excel. 


Tabela 1.1 Alguns pacotes estatísticos genéricos. 


Pacote Fabricante 
Minitab Minitab, Inc. 
SAS SAS Institute, Inc. 
SPlus TIBCO, Inc. 
SPSS SPSS, Inc. 
Statgraphics | Stat. Graphics, Inc. 
MATLAB MathWorks 


1.3.1 O Repositório R 


Neste livro usaremos, preferencialmente, programas do Repositório de Pacotes R, que podem 
ser obtidos livremente do Compreensive R Archive Network (CRAN), no endereço: 
<http://cran.r-project.org>. 

Após instalar o R, vá para o site <www.ime.usp.br/-pam/EstBas.html> e obtenha os scripts 
usados para reproduzir os exemplos e os dados utilizados no livro. 

Para uma breve introdução ao R, siga o caminho indicado no Capítulo 1, “Introdução”. Neste 
capítulo, também estão relacionados os pacotes usados no livro (packages ou libraries). 

Para ver as soluções detalhadas dos exemplos, consulte: <rpubs.com./EstatBasica>. 


1.4 Métodos Gráficos 


Como dissemos na introdução, os métodos gráficos têm encontrado um uso cada vez maior 
devido ao seu forte apelo visual. Normalmente, é mais fácil para qualquer pessoa entender a 
mensagem de um gráfico do que aquela embutida em tabelas ou sumários numéricos. 

Os gráficos são utilizados para diversos fins (Chambers et al., 1983): 

(a) buscar padrões e relações; 

(b) confirmar (ou não) certas expectativas que se tinha sobre os dados; 

(c) descobrir novos fenômenos; 

(d) confirmar (ou não) suposições feitas sobre os procedimentos estatísticos usados; 

(e) apresentar resultados de modo mais rápido e fácil. 


Podemos usar métodos gráficos para plotar os dados originais ou outros dados derivados deles. 
Por exemplo, a investigação da relação entre as variáveis da Figura 1.1 pode ser feita por meio 
daquele diagrama de dispersão. Mas podemos também “ajustar” uma reta aos dados, calcular o 
desvio (resíduo) para cada observação e fazer um novo gráfico, de consumo contra resíduos, para 
avaliar a qualidade do ajuste. 

Com o progresso recente da computação gráfica e a existência de hardware e software 
adequados, a utilização de métodos gráficos torna-se rotineira na análise de dados. 

Neste texto introduziremos gráficos para a visualização e resumo de dados, no caso de uma ou 
duas variáveis, principalmente. Noções para o caso de três ou mais variáveis serão rapidamente 
abordadas. Gráficos com o propósito de comparar duas distribuições também serão tratados. 


1.5 Conjuntos de Dados 


No final do livro, aparecem alguns conjuntos de dados que serão utilizados nos exemplos ou 
nos exercícios propostos. Aconselhamos os leitores a reproduzir os exemplos, usando esses 
dados, bem como resolver os problemas, pois somente a efetiva manipulação de dados pode 
levar a um bom entendimento das técnicas apresentadas. 

Os conjuntos de dados apresentados provêm de diferentes fontes, que são mencionadas em 
cada conjunto e depois explicitadas nas referências. 

Os leitores, é claro, poderão usar as técnicas apresentadas em seus próprios conjuntos de 
dados. 

Alguns conjuntos de dados são parte de conjuntos maiores. Todos esses dados podem ser 
obtidos no endereço: 

<http://www .ime.usp.br/-“pam/EstBas.html>. 


Usaremos um nome curto para identificar cada conjunto de dados. Por exemplo, o Conjunto de 
Dados 1 será designado simplesmente por CD-Brasil, o Conjunto de Dados 4, por CD-Poluição 
etc. 


1.6 Plano do Livro 


Na primeira parte do livro, trataremos, nos Capítulos 2 a 4, de técnicas gráficas e numéricas 
que nos permitirão fazer uma primeira análise dos dados disponíveis. No Capítulo 2, 
estudaremos como resumir os dados por meio de distribuições de frequências e como representá- 
los graficamente por meio de gráficos em barras, histogramas e ramo-e-folhas. No Capítulo 3, 
veremos as principais medidas numéricas resumidoras de um conjunto de dados: medidas de 
posição (ou localização) e medidas de dispersão (ou de variabilidade). A partir dessas medidas, 
poderemos construir gráficos importantes, como o gráfico de quantis e o box plot. No Capítulo 4, 
trataremos do caso em que temos duas variáveis. Estaremos interessados em verificar se existe 
alguma associação entre duas variáveis e como medi-la. O caso de três variáveis será 
considerado brevemente. 

Na segunda parte, introduzimos os conceitos básicos sobre probabilidades e variáveis 
aleatórias. A ideia é que a primeira parte sirva de motivação para construir os modelos 
probabilísticos da segunda parte. No Capítulo 5, tratamos da noção de probabilidade, suas 
propriedades, probabilidade condicional e independência. Também consideramos o teorema de 
Bayes e destacamos sua importância em problemas de inferência. As variáveis aleatórias 
discretas são estudadas no Capítulo 6 e as contínuas, no Capítulo 7. Em particular, são 
introduzidos os principais modelos para variáveis aleatórias, bem como métodos de simulação 
dessas variáveis. O caso de duas variáveis aleatórias é considerado no Capítulo 8. 

No Capítulo 9, introduzimos noções básicas de simulação. Esse assunto é muito importante, 
notadamente quando se quer avaliar algum modelo construído para uma situação real. 

A terceira parte trata da inferência estatística. Nesta parte, todos os conceitos aprendidos nas 
duas partes anteriores são imprescindíveis. Os dois grandes problemas de inferência, estimação e 
teste de hipóteses são estudados nos Capítulos 11 e 12, respectivamente, após serem 
introduzidas, no Capítulo 10, as noções básicas de amostragem e distribuições amostrais. O caso 
de duas populações é considerado no Capítulo 13 e de várias populações no Capítulo 15. 
Basicamente, são desenvolvidos testes para médias, proporções e variâncias. O Capítulo 14 trata 
dos chamados testes do qui-quadrado para dados que aparecem sob a forma de tabelas de 
contingência. Finalmente, no Capítulo 16, estudamos com algum detalhe o modelo de regressão 
linear simples. 

Em cada capítulo há, sempre que possível, exemplos computacionais. Isso significa que algum 
conjunto de dados é analisado utilizando-se o R ou alguns dos programas mencionados acima. 
Em geral, são problemas um pouco mais difíceis do que aqueles exemplificados ou, então, têm o 
caráter de ilustrar o uso de tais pacotes para simulações, por exemplo. Recomendamos que o 
leitor tente reproduzir esses exemplos para adquirir experiência na manipulação de dados e 
procura de eventuais modelos que possam representá-los. 


Capítulo 2 
Resumo de Dados 


Capítulo 3 
Medidas-Resumo 


Capítulo 4 
Análise Bidimensional 


Parte I 
ANÁLISE EXPLORATÓRIA DE DADOS 


Capítulo 2 


Resumo de Dados 


2.1 Tipos de Variáveis 
Para ilustrar o que segue, consideremos o seguinte exemplo. 


Exemplo 2.1 Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos 
socioeconômicos dos empregados da seção de orçamentos da Companhia MB. Usando 
informações obtidas do departamento de pessoal, ele elaborou a Tabela 2.1. Essa tabela é 
chamada planilha de dados. 

Planilhas (usualmente na forma eletrônica) são matrizes de dados, construídas com o objetivo 
de permitir uma análise estatística. Cada linha da matriz corresponde a uma unidade de 
investigação (por exemplo, unidade amostral) e cada coluna, a uma variável, que corresponde à 
realização de uma característica. 

A planilha, em formato excel, correspondendo à Tabela 2.1, está no Conjunto de Dados, na 
página do livro. 

Para importá-la, utilizaremos qualquer um dos formatos TXT, DAT ou CSV. Desta forma, o 
primeiro passo é construir um arquivo CSV (ou alternativamente DAT ou TXT), a partir da 
planilha excel da Tabela 2.1, salvando-a no formato CSV. 

Após a construção do arquivo CSV, procederemos no R com o comando read.table para 
importar os dados. 


tab21<-read.table (“tabela2 1.csv”, dec=”,”, sep=":”, h=T) 


Podemos facilmente saber quais são as variáveis importadas por meio do comando 


names (tab21) 

Ha [1] “N” “estado civil” “grau instrucao” 
“n filhos” 

HH [5] “salario” “idade anos” “idade meses 


» «6 


reg procedencia 


Para mais detalhes, veja os comandos referentes ao Capítulo 2 na página do livro. 

No exemplo em questão, considerando-se a característica (variável) estado civil, para cada 
empregado pode-se associar uma das realizações, solteiro ou casado (note que poderia haver 
outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram 
consideradas no estudo). Podemos atribuir uma letra, digamos X, para representar tal variável. 
Observamos que o pesquisador colheu informações sobre seis variáveis: 


Variável Representação 
Estado civil x 
Grau de instrução 
Número de filhos 
Salário 
Idade 


Região de procedência 


<0CunNxKx 


Algumas variáveis, como sexo, educação, estado civil, apresentam como possíveis realizações 
uma qualidade (ou atributo) do indivíduo pesquisado, ao passo que outras, como número de 
filhos, salário, idade, apresentam como possíveis realizações números resultantes de uma 
contagem ou mensuração. As variáveis do primeiro tipo são chamadas qualitativas, e as do 
segundo tipo, quantitativas. 

Dentre as variáveis qualitativas, ainda podemos fazer uma distinção entre dois tipos: variável 
qualitativa nominal, para a qual não existe nenhuma ordenação nas possíveis realizações, e 
variável qualitativa ordinal, para a qual existe uma ordem nos seus resultados. A região de 
procedência, do Exemplo 2.1, é um caso de variável nominal, enquanto grau de instrução é um 
exemplo de variável ordinal, pois ensinos fundamental, médio e superior correspondem a uma 
ordenação baseada no número de anos de escolaridade completos. A variável qualitativa classe 
social, com as possíveis realizações alta, média e baixa, é outro exemplo de variável ordinal. 

De modo análogo, as variáveis quantitativas podem sofrer uma classificação dicotômica: (a) 
variáveis quantitativas discretas, cujos possíveis valores formam um conjunto finito ou 
enumerável de números, e que resultam, frequentemente, de uma contagem, como número de 
filhos (0, 1, 2, ...); (b) variáveis quantitativas contínuas, cujos possíveis valores pertencem a um 
intervalo de números reais e que resultam de uma mensuração, como por exemplo estatura e peso 
(melhor seria dizer massa) de um indivíduo. 

A Figura 2.1 esquematiza as classificações feitas acima. 


Figura 2.1 Classificação de uma variável. 
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Para cada tipo de variável existem técnicas apropriadas para resumir as informações, donde a 
vantagem de usar uma tipologia de identificação como a da Figura 2.1. Entretanto, verificaremos 
que técnicas usadas num caso podem ser adaptadas para outros. 

Para finalizar, cabe uma observação sobre variáveis qualitativas. Em algumas situações 
podem-se atribuir valores numéricos às várias qualidades ou atributos (ou, ainda, classes) de uma 


variável qualitativa e depois proceder-se à análise como se esta fosse quantitativa, desde que o 


procedimento seja passível de interpretação. 


Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada 
variável dicotômica. Para essa variável só podem ocorrer duas realizações, usualmente chamadas 
sucesso e fracasso. A variável estado civil, no exemplo acima, estaria nessa situação. Esse tipo 


de variável aparecerá mais vezes nos próximos capítulos. 


Tabela 2.1 Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso como fração do salário 
mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos da Companhia MB. 


Nº Estado civil 


solteiro 
casado 
casado 
solteiro 
solteiro 
casado 
solteiro 


solteiro 


Oo ISO Ur wNARa 


casado 
10| solteiro 
11| casado 
12| solteiro 
13| solteiro 
14| casado 
15| casado 
16| solteiro 
17| casado 
18| casado 
19| solteiro 
20| solteiro 
21| casado 
22| solteiro 
23| solteiro 
24| casado 
25| casado 
26| casado 
27| solteiro 
28| casado 
29| casado 
30| casado 
31| solteiro 
32| casado 
33| casado 
34| solteiro 
35| casado 


36| casado 


Grau de instrução Nº de filhos Salário (x sal. mín.) 


ensino fundamental 
ensino fundamental 
ensino fundamental 
ensino médio 
ensino fundamental 
ensino fundamental 
ensino fundamental 


ensino fundamental 
ensino médio 
ensino médio 
ensino médio 
ensino fundamental 
ensino médio 
ensino fundamental 
ensino médio 
ensino médio 
ensino médio 
ensino fundamental 
superior 
ensino médio 
ensino médio 
ensino médio 
ensino fundamental 
superior 
ensino médio 
ensino médio 
ensino fundamental 
ensino médio 
ensino médio 
ensino médio 
superior 
ensino médio 
superior 
superior 
ensino médio 


superior 


MN ta 


So w 


KO tê 


wo mN 


4,00 
4,56 
5,25 
5,73 
6,26 
6,66 
6,86 
7,39 
7,59 
7,44 
8,12 
8,46 
8,74 
8,95 
9,13 
9,35 
9,77 
9,80 
10,53 
10,76 
11,06 
11,59 
12,00 
12,79 
13,23 
13,60 
13,85 
14,69 
14,71 
15,99 
16,22 
16,61 
17,26 
18,75 
19,40 
23,30 


Idade 
anos | meses 


Região de procedência 


interior 
capital 
capital 
outra 
outra 
interior 
interior 
capital 
capital 
outra 
interior 
capital 
outra 
outra 
interior 
outra 
capital 
outra 
interior 
interior 
outra 
capital 
outra 
outra 
interior 
outra 
outra 
interior 
interior 
capital 
outra 
interior 
capital 
capital 
capital 


interior 


2.2 Distribuições de Frequências 


Fonte: Dados hipotéticos. 


Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento 
dessa variável, analisando a ocorrência de suas possíveis realizações. Nesta seção, veremos uma 
maneira de se dispor um conjunto de realizações, para se ter uma ideia global sobre elas, ou seja, 
de sua distribuição. 


Exemplo 2.2 A Tabela 2.2 apresenta a distribuição de frequências da variável grau de instrução, 
usando os dados da Tabela 2.1. 


Tabela 2.2 Frequências e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de 


instrução. 
Proporção f; | Porcentagem 100 f, 


12 33,33 


Grau de instrução 


Fundamental 


Médio 50,00 
Superior 16,67 
Total 36 1,0000 100,00 


Fonte: Tabela 2.1. 


Observando os resultados da segunda coluna, vê-se que dos 36 empregados da companhia, 12 
têm o ensino fundamental, 18 o ensino médio e 6 possuem curso superior. 

Uma medida bastante útil na interpretação de tabelas de frequências é a proporção de cada 
realização em relação ao total. Assim, 6/36 = 0,1667 dos empregados da companhia MB (seção 
de orçamentos) têm instrução superior. Na última coluna da Tabela 2.2 são apresentadas as 
porcentagens para cada realização da variável grau de instrução. Usaremos a notação n, para 
indicar a frequência (absoluta) de cada classe, ou categoria, da variável, e a notação f, = n/n para 
indicar a proporção (ou frequência relativa) de cada classe, sendo n o número total de 
observações. As proporções são muito úteis quando se quer comparar resultados de duas 
pesquisas distintas. Por exemplo, suponhamos que se queira comparar a variável grau de 
instrução para empregados da seção de orçamentos com a mesma variável para todos os 
empregados da Companhia MB. Digamos que a empresa tenha 2.000 empregados e que a 
distribuição de frequências seja a da Tabela 2.3. 


Tabela 2.3 Frequências e porcentagens dos 2.000 empregados da Companhia MB, segundo o grau de instrução. 


Grau de instrução Porcentagem 100 f, 


Fundamental 1.650 32,50 
Médio 1.020 51,00 
Superior 1.330 16,50 
Total 2.000 100,00 


Fonte: Dados hipotéticos. 


Não podemos comparar diretamente as colunas das frequências das Tabelas 2.2 e 2.3, pois os 
totais de empregados são diferentes nos dois casos. Mas as colunas das porcentagens são 
comparáveis, pois reduzimos as frequências a um mesmo total (no caso 100). 

A construção de tabelas de frequências para variáveis contínuas necessita de certo cuidado. 
Por exemplo, a construção da tabela de frequências para a variável salário, usando o mesmo 
procedimento acima, não resumirá as 36 observações num grupo menor, pois não existem 
observações iguais. A solução empregada é agrupar os dados por faixas de salário. 


Exemplo 2.3 A Tabela 2.4 dá a distribuição de frequências dos salários dos 36 empregados da seção 
de orçamentos da Companhia MB por faixa de salários. 


Tabela 2.4 Frequências e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixa de 


salário. 
Classe de salários | Frequência n, | Porcentagem 100 f; 
4,001 8,00 10 27,78 
8,00 |-- 12,00 12 38,33 
12,00 -- 16,00 8 22,22 
16,00 -- 20,00 5 13,89 
20,00 | 24,00 it 2,78 
Total 36 100,00 


Fonte: Tabela 2.1. 


Procedendo-se desse modo, ao resumir os dados referentes a uma variável contínua, perde-se 
alguma informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, a 
não ser que investiguemos a tabela original (Tabela 2.1). Sem perda de muita precisão, 
poderíamos supor que todos os oito salários daquela classe fossem iguais ao ponto médio da 
referida classe, isto é, 14 (o leitor pode verificar qual o erro cometido, comparando-os com os 
dados originais da Tabela 2.1). Voltaremos a este assunto no Capítulo 3. Note que estamos 
usando a notação a Hb para o intervalo de números contendo o extremo a, mas não contendo o 
extremo b. Podemos também usar a notação [a, b) para designar o mesmo intervalo a Hb. 

A escolha dos intervalos é arbitrária e a familiaridade do pesquisador com os dados é que lhe 
indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que, 
com um pequeno número de classes, perde-se informação, e com um número grande de classes, 
o objetivo de resumir os dados fica prejudicado. Estes dois extremos têm a ver, também, com o 
grau de suavidade da representação gráfica dos dados, a ser tratada a seguir, baseada nestas 
tabelas. Normalmente, sugere-se o uso de 5 a 15 classes com a mesma amplitude. O caso de 
classes com amplitudes diferentes é tratado no Problema 10. 


1. Escalas de medidas. A seguir descrevemos outros possíveis critérios para classificar variáveis, em função da escala adotada. 
Observe a similaridade com a classificação apresentada anteriormente. Nossas observações são resultados de medidas feitas 
sobre os elementos de uma população. Existem quatro escalas de medidas que podem ser consideradas: 

Escala nominal. Nesta escala, somente podemos afirmar que uma medida, é diferente ou não de outra, e ela é usada para 
categorizar indivíduos de uma população. Um exemplo é o sexo de um indivíduo. Para cada categoria associamos um 
numeral diferente (letra ou número). Por exemplo, no caso do sexo, podemos associar as letras M (masculino) e F (feminino) 
ou 1 (masculino) e 2 (feminino). Não podemos realizar operações aritméticas aqui e uma medida de posição apropriada é a 
moda. (As medidas citadas nesse problema, como a média, mediana e moda, são definidas no Capítulo 3.) 

Escala ordinal. Aqui, podemos dizer que uma medida é diferente e maior do que outra. Temos a situação anterior, mas as 
categorias são ordenadas, e a ordem dos numerais associados ordena as categorias. Por exemplo, a classe socioeconômica de 
um indivíduo pode ser baixa (1 ou X), média (2 ou Y) e alta (3 ou Z). Transformações que preservam a ordem não alteram a 
estrutura de uma escala ordinal. No exemplo acima, podemos representar as categorias por 1, 10 e 100 ou A, L e Z. Medidas 
de posição apropriadas são a mediana e a moda. 

Escala intervalar. Nesta escala, podemos afirmar que uma medida é igual ou diferente, maior e quanto maior do que outra. 
Podemos quantificar a diferença entre as categorias da escala ordinal. Necessitamos de uma origem arbitrária e de uma 
unidade de medida. Por exemplo, considere a temperatura de um indivíduo, na escala Fahrenheit. A origem é 0ºFea 
unidade é 1º F. Transformações que preservam a estrutura dessa escala são do tipo y = ax + b, a > 0. Por exemplo, a 


transformação y = 5/9 (x - 32) transforma graus Fahrenheit em centígrados. Para essa escala, podemos fazer operações 
aritméticas, assim média, mediana e moda são medidas de posição apropriadas. 

Escala razão. Dadas duas medidas nessa escala, podemos dizer se são iguais, ou se uma é diferente, maior, quanto maior e 
quantas vezes a outra. A diferença com a escala intervalar é que agora existe um zero absoluto. A altura de um indivíduo é 
um exemplo de medida nessa escala. Se ela for medida em centímetros (cm), O cm é a origem e 1 cm é a unidade de medida. 
Um indivíduo com 190 cm é duas vezes mais alto do que um indivíduo com 95 cm, e esta relação continua a valer se 
usarmos 1 m como unidade. Ou seja, a estrutura da escala razão não é alterada por transformações da forma y = cx, c > 0. Por 
exemplo, y = x/100 transforma cm em m. As estatísticas apropriadas para a escala intervalar são também apropriadas para a 
escala razão. 

Para cada uma das variáveis abaixo, indique a escala usualmente adotada para resumir os dados em tabelas de frequências: 

(a) Salários dos empregados de uma indústria. 
(b) Opinião de consumidores sobre determinado produto. 
(c) Número de respostas certas de alunos num teste com dez itens. 
(d) Temperatura diária da cidade de Manaus. 
(e) Porcentagem da receita de municípios aplicada em educação. 
(f) Opinião dos empregados da Companhia MB sobre a realização ou não de cursos obrigatórios de treinamento. 
(9) QI de um indivíduo. 
2. Usando os dados da Tabela 2.1, construa a distribuição de frequências das variáveis: 
(a) Estado civil. 
(b) Região de procedência. 
(c) Número de filhos dos empregados casados. 
(d) Idade. 
3. Para o Conjunto de Dados 1 (CD-Brasil), construa a distribuição de frequências para as variáveis população e densidade 
populacional. 


2.3 Gráficos 


Como já salientamos no Capítulo 1, a representação gráfica da distribuição de uma variável 
tem a vantagem de, rápida e concisamente, informar sobre sua variabilidade. Existem vários 
gráficos que podem ser utilizados e abordaremos aqui os mais simples. No Capítulo 3, 
voltaremos a tratar deste assunto, em conexão com medidas associadas à distribuição de uma 
variável. 


2.3.1 Gráficos para Variáveis Qualitativas 


Existem vários tipos de gráficos para representar variáveis qualitativas. Vários são versões 
diferentes do mesmo princípio, logo nos limitaremos a apresentar dois deles: gráficos em barras 
e de composição em setores (“pizza” ou retângulos). 


Exemplo 2.4 Tomemos como ilustração a variável Y: grau de instrução, exemplificada nas Tabelas 
22 e 2.3. O gráfico em barras consiste em construir retângulos ou barras, em que uma das 
dimensões é proporcional à magnitude a ser representada (n, ou f), sendo a outra arbitrária, 
porém igual para todas as barras. Essas barras são dispostas paralelamente umas às outras, 
horizontal ou verticalmente. Na Figura 2.2, temos o gráfico em barras (verticais) para a variável 
Y. 


Figura 2.2 Gráfico em barras para a variável Y: grau de instrução. 
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Médio Superior 

Já o gráfico de composição em setores, sendo em forma de “pizza” o mais conhecido, destina- 
se a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num 
círculo de raio arbitrário, representando o todo, dividido em setores, que correspondem às partes 
de maneira proporcional. A Figura 2.3 mostra esse tipo de gráfico para a variável Y. Muitas 
vezes é usado um retângulo no lugar do círculo, para indicar o todo. 


Figura 2.3 Gráfico em setores para a variável Y: grau de instrução. 
1(12; 33,3%) 


2(18; 50,0%) 


3 (6; 16,7%) 


1= Fundamental, 2 = Médio e 3 = Superior 


2.3.2 Gráficos para Variáveis Quantitativas 


Para variáveis quantitativas, podemos considerar uma variedade maior de representações 
gráficas. 


Exemplo 2.5 Considere a distribuição da variável Z, número de filhos dos empregados casados da 
seção de orçamentos da Companhia MB (Tabela 2.1). Na Tabela 2.5, temos as frequências e 
porcentagens. 

Além dos gráficos usados para as variáveis qualitativas, como ilustrado na Figura 2.4, 
podemos considerar um gráfico chamado gráfico de dispersão unidimensional, como o da Figura 
2.5 (a), em que os valores são representados por pontos ao longo da reta (provida de uma escala). 
Valores repetidos são acompanhados por um número que indica as repetições. Outra 
possibilidade é considerar um gráfico em que os valores repetidos são “empilhados”, um em 
cima do outro, como na Figura 2.5 (b). Pode-se também apresentar o ponto mais alto da pilha, 
como aparece na Figura 2.5 (c). 


Figura 2.4 Gráfico em barras para a variável Z: número de filhos. 
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Figura 2.5 Gráficos de dispersão unidimensionais para a variável Z: número de filhos. 
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(a) (b) (c) 
Tabela 2.5 Frequências e porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o 
número de filhos. 


Nº de filhos z, | Frequência n, | Porcentagem 100 f; 


Fonte: Tabela 2.1. 


Exemplo 2.6 (Queremos representar graficamente a distribuição da variável S, salário dos 
empregados da seção de orçamentos da Companhia MB. A Tabela 2.4 fornece a distribuição de 
frequências de S. Para fazer uma representação similar às apresentadas anteriormente, devemos 
usar o artifício de aproximar a variável contínua por uma variável discreta, sem perder muita 
informação. Isto pode ser feito supondo-se que todos os salários em determinada classe são 
iguais ao ponto médio desta classe. Assim, os dez salários pertencentes à primeira classe (de 
quatro a oito salários) serão admitidos iguais a 6,00, os 12 salários da segunda classe (oito a doze 
salários) serão admitidos iguais a 10,00 e assim por diante. Então, podemos reescrever a Tabela 
2.4 introduzindo os pontos médios das classes. Estes pontos estão na segunda coluna da Tabela 
2.6. 

Com a tabela assim construída podemos representar os pares (s, n;) ou (s, f;), por um gráfico 
em barras, setores ou de dispersão unidimensional. Veja a Figura 2.6. 


Figura 2.6 Gráfico em barras para a variável S: salários. 
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O artifício usado acima para representar uma variável contínua faz com que se perca muito das 
informações nela contidas. Uma alternativa a ser usatánestes casos é o gráfico conhecido como 


histograma. 


Tabela 2.6 Distribuição de frequências da variável S, salário dos empregados da seção de orçamentos da Companhia MB. 


Classes de salários Frequência n, | Porcentagem 100 f, 
4,00 |-- 8,00 10 27,78 
8,00 | 12,00 12 33,33 
12,00 |-- 16,00 8 22,22 
16,00 |-— 20,00 13,89 
20,00 |-- 24,00 ih 2,78 
Total — 36 100,00 


Fonte: Tabela 2.4. 


Exemplo 2.7 Usando ainda a variável S do Exemplo 2.4, apresentamos na Figura 2.7 o histograma 
de sua distribuição. 

O histograma é um gráfico de barras contíguas, com as bases proporcionais aos intervalos das 
classes e a área de cada retângulo proporcional à respectiva frequência. Pode-se usar tanto a 
frequência absoluta, n, como a relativa, f,. Indiquemos a amplitude do i-ésimo intervalo por A,. 
Para que a área do retângulo respectivo seja proporcional a f, a sua altura deve ser proporcional a 
f/A, (ou a n/A)), que é chamada densidade de frequência da i-ésima classe. Quanto mais dados 
tivermos em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do 
histograma será igual a um. 

Quando os intervalos das classes forem todos iguais a A, a densidade de frequência da i-ésima 
classe passa a ser f/A (ou n/A). É claro que marcar no eixo das ordenadas os valores n, f, n/A ou 
f/A leva a obter histogramas com a mesma forma; somente as áreas é que serão diferentes. O 
Problema 10 traz mais informações sobre a construção de histogramas. 


Figura 2.7 Histograma da variável S: salários. 
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dos empregados têm salário inferior a 12 salários mínimos, ou ca. possuem salário superior a 
16 salários mínimos. 

Do mesmo modo que usamos um artifício para representar uma variável contínua como uma 
variável discreta, podemos usar um artifício para construir um histograma para variáveis 
discretas. A Figura 2.8 é um exemplo de como ficaria o histograma da variável Z, número de 
filhos dos empregados casados da seção de orçamentos da Companhia MB, segundo os dados da 
Tabela 2.5. O gráfico é suficientemente autoexplicativo, de modo que omitimos detalhes sobre 
sua construção. 


Figura 2.8 Histograma da variável Z: número de filhos. 
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2.4 Ramo-e-Folhas 


Tanto o histograma como os gráficos em barras dão uma ideia da forma da distribuição da 
variável sob consideração. Veremos, no Capítulo 3, outras características da distribuição de uma 
variável, como medidas de posição e dispersão. Mas a forma da distribuição é tão importante 
quanto estas medidas. Por exemplo, saber que a renda per capita de um país é de tantos dólares 
pode ser um dado interessante, mas saber como essa renda se distribui é mais importante. 

Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se obter 
uma ideia da forma de sua distribuição, é o ramo-e-folhas. Uma vantagem deste diagrama sobre 
o histograma é que não perdemos (ou perdemos pouca) informação sobre os dados em si. 


Exemplo 2.8 Na Figura 2.9, construímos o ramo-e-folhas dos salários de 36 empregados da 
Companhia MB (Tabela 2.1). Não existe uma regra fixa para construir o ramo-e-folhas, mas a 
ideia básica é dividir cada observação em duas partes: a primeira (o ramo) é colocada à esquerda 
de uma linha vertical, a segunda (a folha) é colocada à direita. Assim, para os salários 4,00 e 
4,56, o 4 é o ramo e 00 e 56 são as folhas. 

Um ramo com muitas folhas significa maior incidência daquele ramo (realização). 


Figura 2.9 Ramo-e-folhas para a variável S: salários. 
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Algumas informações que se obtêm deste ramo-e-folhas são: 

(a) Há um destaque grande para o valor 23,30. 

(b) Os demais valores estão razoavelmente concentrados entre 4,00 e 19,40. 

(c) Um valor mais ou menos típico para este conjunto de dados poderia ser, por exemplo, 
10,00. 

(d) Há uma leve assimetria em direção aos valores grandes; a suposição de que estes dados 
possam ser considerados como amostra de uma população com distribuição simétrica, em 


forma de sino (a chamada distribuição normal), pode ser questionada. 


A escolha do número de linhas do ramo-e-folhas é equivalente à escolha do número de classes 
de um histograma. Um número pequeno de linhas (ou de classes) enfatiza a parte M da relação 
(1.1), enquanto um número grande de linhas (ou de classes) enfatiza a parte R. 


Exemplo 2.9 Os dados abaixo referem-se à dureza de 30 peças de alumínio (Hoaglin; Mosteller; 
Tukey, 1983, p. 13). 

53,0 70,2 84,3 69,5 77,8 87,5 53,4 82,5 67,3 54,1 

70,5 71,4 95,4 51,1 74,4 55,7 63,5 85,8 53,5 64,3 

82,7 78,5 55,7 69,1 72,3 59,5 55,3 73,0 52,4 50,7 

Na Figura 2.10, temos o ramo-e-folhas correspondente. Aqui, optamos por truncar cada valor, 

omitindo os décimos, de modo que 69,1 e 69,5, por exemplo, tornam-se 69 e 69 e aparecem 
como 9 na linha que corresponde ao ramo 6. 


Figura 2.10 Ramo-e-folhas para os dados de dureza de peças de alumínio. 
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Este é um exemplo em que temos muitas folhas em cada ramo. Uma maneira alternativa é 
duplicar os ramos. Criamos os ramos 5* e 5º, 6* e 6º etc., nos quais colocamos folhas de O a 4 na 
linha * e folhas de 5 a 9 na linha *. Obtemos o ramo-e-folhas da Figura 2.11. 

Um ramo-e-folhas pode ser “adornado” com outras informações, como o número de 
observações em cada ramo. Para outros exemplos, veja o Problema 19. 


Figura 2.11 Ramo-e-folhas para os dados de dureza, com ramos divididos. 
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Problemas 


4. Contou-se o número de erros de impressão da primeira página de um jornal durante 50 dias, obtendo-se os resultados abaixo: 


811812141311141415 
61014196127588 
10 1610 12128116712 
710145127912119 
14814812101222715 

(a) Represente os dados graficamente. 

(b) Faça um histograma e um ramo-e-folhas. 


5. Usando os resultados do Problema 2 e da Tabela 2.3: 
(a) construa um histograma para a variável idade; e 


(b) proponha uma representação gráfica para a variável grau de instrução. 
6. As taxas médias geométricas de incremento anual (por 100 habitantes) dos 30 maiores municípios do Brasil estão dadas 
abaixo. 

3,67 1,82 3,73 4,10 4,30 
1,28 8,14 2,43 4,17 5,36 
3,96 6,54 5,84 7,35 3,63 
2,93 2,82 8,45 5,28 5,41 
7,77 4,65 1,88 2,12 4,26 
2,78 5,54 0,90 5,09 4,07 

(a) Construa um histograma. 

(b) Construa um gráfico de dispersão unidimensional. 

7. Você foi convidado para chefiar a seção de orçamentos ou a seção técnica da Companhia MB. Após analisar o tipo de serviço 
que cada seção executa, você ficou indeciso e resolveu tomar a decisão baseado em dados fornecidos para as duas seções. O 
departamento pessoal forneceu os dados da Tabela 2.1 para os funcionários da seção de orçamentos, ao passo que, para a 
seção técnica, os dados vieram agrupados segundo as tabelas abaixo, que apresentam as frequências dos 50 empregados 
dessa seção, segundo as variáveis grau de instrução e salário. Baseado nesses dados, qual seria a sua decisão? Justifique. 


Instrução | Frequência Classe de Salários | Frequência 
Fundamental 15 7,50 |--10,50 14 
Médio 30 10,50 -— 13,50 17 
Superior 5 13,50 |-- 16,50 1 
Total 50 16,50 -- 19,50 8 
Total 50 


8. Construa um histograma, um ramo-e-folhas e um gráfico de dispersão unidimensional para o Conjunto de Dados 2 (CD- 
Municípios). 


2.5 Exemplos Computacionais 


Nesta seção, vamos analisar dois conjuntos de dados apresentados no final do livro, utilizando 
técnicas vistas neste capítulo e comandos do R. Para mais detalhes veja a página do livro. 


Exemplo 2.10 Considere o conjuntos de notas, em Estatística, de 100 alunos de um curso de 
Economia (CD-Notas). O histograma dos dados está na Figura 2.12, que mostra que a 
distribuição dos dados é razoavelmente simétrica. Esse gráfico pode ser obtido por meio do 
comando do R a seguir: 


cdnotas<-read.table(“cd-notas.csv”, h=T, skip=4,sep=":”, dec=",”) 


hist (cdnotas$nota, col=”darkblue”, xlab=”Notas”, ylab=”Frequência”, border=”"white”) 


Figura 2.12 Histograma para o CD-Notas. R. 
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O gráfico de dispersão unidimensional e o ramo-e-folhas correspondentes estão nas Figuras 
2.13 e 2.14, respectivamente, e ambos contêm informação semelhante à dada pelo histograma. 
Os comandos a utilizar são: 


stripchart (cdnotas$nota, method = “stack”, offset = 2, at=0, 
pch = 19, col=”darkblue”, ylab=NA,cex=0.5) 
stem (cdnotas$notaFigura 2.14 Ramo-e-folhas para o CD-Notas. R. 


Figura 2.13 Gráfico de dispersão unidimensional para o CD-Notas. R. 


Figura 2.14 Ramo-e-folhas para o CD-Notas. R. 
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Exemplo 2.11 O Conjunto de Dados 4 (CD-Poluição) traz dados sobre a poluição na cidade de São 
Paulo. Tomemos os dados de temperatura, de 1º de janeiro a 30 de abril de 1991 (120 dados). 
Essas observações constituem o que se chama série temporal, ou seja, os dados são observados 
em instantes ordenados do tempo. Espera-se que exista relação entre as observações em instantes 
de tempo diferentes, o que não acontece com os dados do exemplo anterior: a nota de um aluno, 
em princípio, é independente da nota de outro aluno qualquer. O gráfico dessa série temporal 
está na Figura 2.15. Observa-se uma variação da temperatura no decorrer do tempo, entre 12 e 22 
SC, 


Figura 2.15 Dados de temperatura de São Paulo. R. 
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O histograma e o gráfico de dispersão unidimensional estão nas Figuras 2.16 e 2.17, 
respectivamente, mostrando que a distribuição dos dados não é simétrica. O ramo-e-folhas da 
Figura 2.18 ilustra o mesmo comportamento. 

Os comandos do R utilizados são: 


cdpoluicao<-read.table (“cd-poluicao.csv”, h=T, skip=8, sep=”;”, dec=",”) 
plot.ts (cdpoluicao$temp, xlab=”Dia”, ylab=”Grau”, col="darkblue”) 


—, 


hist (cdpoluicao$temp, col=”darkblue”, xlab=”Temperatura”, border=”"white”, ylab="”) 
stripchart (cdpoluicao$temp, method = “stack”, offset = 2, at=0, pch = 19, col="darkblue”,ylab=NA, cex=0.5) 
stem (cdpoluicao$temp, scale=.5) 


Figura 2.16 Histograma dos dados de temperatura de São Paulo. R. 


Figura 2.17 Gráfico de dispersão unidimensional para os dados de temperatura de São Paulo. R. 


Figura 2.18 Ramo-e-folhas para os dados de temperatura de São Paulo. R. 
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12 3 
13 128 
14 0012588899 


15 112222225558899 

16 000000013344678999 

17 000000001236688888999 

18 00000000001111233345566889999999 
19 00000000012289 

20 00011 

21 0 


2.6 Problemas Suplementares 


9. A MB Indústria e Comércio, desejando melhorar o nível de seus funcionários em cargos de chefia, montou um curso 
experimental e indicou 25 funcionários para a primeira turma. Os dados referentes à seção a que pertencem, notas e graus 
obtidos no curso estão na tabela a seguir. Como havia dúvidas quanto à adoção de um único critério de avaliação, cada 
instrutor adotou seu próprio sistema de aferição. Usando dados daquela tabela, responda as questões: 

(a) Após observar atentamente cada variável, e com o intuito de resumi-las, como você identificaria (qualitativa ordinal ou 
nominal e quantitativa discreta ou contínua) cada uma das 9 variáveis listadas? 

(b) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito, Política e Estatística. 

(c) Construa o histograma para as notas da variável Redação. 

(d) Construa a distribuição de frequências da variável Metodologia e faça um gráfico para indicar essa distribuição. 

(e) Sorteado ao acaso um dos 25 funcionários, qual a probabilidade de que ele tenha obtido grau A em Metodologia? 

(f) Se, em vez de um, sorteássemos dois, a probabilidade de que ambos tivessem tido A em Metodologia é maior ou menor do 
que a resposta dada em (e)? 

(9) Como é o aproveitamento dos funcionários na disciplina Estatística, segundo a seção a que eles pertencem? 


i P 9,0 8,6 9,0 B A 9,0 8,5 
2 P B [6 6,5 8,0 
3 Pp D B 9,0 8,5 
4 P D E 6,0 8,5 
5 P A A 6,5 9,0 
6 P B A 6,5 9,5 
7 P IB) C 9,0 Za) 
8 T B 8 6,0 8,5 
9 Tt B B 10,0 8,0 
10 T B 6 9,0 7,5 
11 T É B 10,0 | 85 
ia Dê D B 6,5 8,0 
13 TF B E 6,0 8,5 
14 6 A B 10,0 AS 
15 vV Cc B 10,0 | 7,0 
16 V A A 9,0 75 
17 vV D E 10,0 | 7,5 
18 4 GC (6 6,0 8,5 
19 Yy D [6 6,0 9,5 
20 V E B 6,0 8,5 
2á vV D B 6,5 8,0 
22 V E A 6,0 9,0 
23 V E C 9,0 VA) 
24 V A A 6,5 9,0 
2a. V B A 9,0 8,5 


(*) (P = departamento pessoal, T = seção técnica e V = seção de vendas) 


10. Dispomos de uma relação de 200 aluguéis de imóveis urbanos e uma relação de 100 aluguéis rurais. 
(a) Construa os histogramas das duas distribuições. 
(b) Com base nos histogramas, discuta e compare as duas distribuições. 


Classes de aluguéis (codificados) | Zona urbana | Zona rural 
2-3 10 30 
3p=5 40 50 
5p=7 80 15 
7 = 10 50 5 
10-15 20 0 
Total 200 100 


11. Esboce o histograma alisado para cada uma das situações descritas abaixo: 
(a) Distribuição dos salários registrados em carteira de trabalho de moradores da cidade de São Paulo. 
(b) Distribuição das idades de alunos de uma Faculdade de Economia e Administração. 
(c) Distribuição das idades dos alunos de uma classe da Faculdade do item anterior. Compare as duas distribuições. 
(d) Distribuição do número de óbitos segundo a faixa etária. 
(e) Distribuição do número de divórcios segundo o número de anos de casado. 
(f) Distribuição do número formado pelos dois últimos algarismos do primeiro prêmio da Loteria Federal, durante os dez 
últimos anos. 
12. Faça no mesmo gráfico um esboço das três distribuições descritas abaixo: 
(a) Distribuição das alturas dos brasileiros adultos. 
(b) Distribuição das alturas dos suecos adultos. 
(c) Distribuição das alturas dos japoneses adultos. 
13. Usando os dados da Tabela 2.1: 
(a) Construa a distribuição de frequências para a variável idade. 
(b) Faça o gráfico da porcentagem acumulada. 
(c) Usando o gráfico anterior, ache os valores de i correspondentes aos pontos (i, 25%), (i, 50%) e (i, 75%). 
14. Construir a f.d.e. para a variável idade referente aos dados da Tabela 2.1. 
15. Construa um ramo-e-folhas para a variável CO (monóxido de carbono) do Conjunto de Dados 4 (CD-Poluição). 


2.7 Complementos Metodológicos 


1. Intervalos de classes desiguais. É muito comum o uso de classes com tamanhos desiguais no agrupamento dos dados em 
tabelas de frequências. Nestes casos, deve-se tomar alguns cuidados especiais quanto à análise e construção do histograma. 

A tabela abaixo fornece a distribuição de 250 empresas classificadas segundo o número de empregados. Uma análise superficial 

pode levar à conclusão de que a concentração vem aumentando até atingir um máximo na classe 40 |-- 60, voltando a diminuir 

depois, mas não tão acentuadamente. Porém, um estudo mais detalhado revela que a amplitude da classe 40 |-- 60 é o dobro da 

amplitude das classes anteriores. Assim, espera-se que mais elementos caiam nessa classe, mesmo que a concentração seja 

levemente inferior. Então, um primeiro cuidado é construir a coluna que indica as amplitudes A, de cada classe. Estes valores 


estão representados na terceira coluna da tabela. 


Número de Frequência Amplitude Densidade Proporção Densidade f/A, 
empregados n; A; niA; If 


Número de empregados | Frequência n, | Amplitude A, | Densidade n/A, Proporção | Densidade F/A, 


0-- 10 
10-20 0,0080 
20 |-- 30 0,0140 
30 -- 40 0,0160 
40 -- 60 0,0100 
60 -— 80 0,0060 
80-- 100 0,0040 
100 :-—- 140 0,0020 
140 |-- 180 0,0015 
180: 260 0,0008 


Total 


Um segundo passo é a construção da coluna das densidades de frequências em cada classe, que é obtida dividindo as frequências 
n; pelas amplitudes A, ou seja, a medida que indica qual a concentração por unidade da variável. Assim, observando-se os 
números da quarta coluna, vê-se que a classe de maior concentração passa a ser a 30 |-- 40, enquanto a última é a de menor 
concentração. Para compreender a distribuição, estes dados são muito mais informativos do que as frequências absolutas 
simplesmente. 

De modo análogo, pode-se construir a densidade da proporção (ou porcentagem) por unidade da variável (verifique a construção 
por meio da 5º e da 6º colunas). A interpretação para f;/A; é muito semelhante àquela dada para n;/A;. 

Para a construção do histograma, basta lembrar que a área total deve ser igual a 1 (ou 100%), o que sugere usar no eixo das 
ordenadas os valores de f;/A;. O histograma para estes dados está na Figura 2.19. 


Figura 2.19 Histograma dos dados do CM 1. 
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2. Histograma alisado. Na Tabela 2.4, tem-se a distribuição de frequências dos salários de 36 funcionários, agrupados em classes 
de amplitude 4. Na Figura 2.7, tem-se o respectivo histograma. Reagrupando-se os dados em classes de amplitude 2, obter-se-ia a 
seguinte tabela de frequências e o correspondente histograma (Figura 2.20 (a)). 
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22,00 | 24,00 

Total 
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Figura 2.20 (a) Histograma para a variável S: salário, A = 2. 
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Se houvesse um número suficientemente grande de observações, poder-se-ia ir diminuindo os intervalos de classe, e o 
histograma iria ficando cada vez menos irregular, até atingir um caso limite com uma curva bem mais suave. Por exemplo, o 
comportamento da distribuição dos salários poderia ter a representação da Figura 2.20 (b). Esse histograma alisado é muito 
útil para ilustrar rapidamente qual o tipo de comportamento que se espera para a distribuição de uma dada variável. No 
capítulo referente às variáveis aleatórias contínuas, voltaremos a estudar esse histograma sob um ponto de vista mais 
matemático. 

A interpretação desse gráfico é a mesma do histograma. Assim, nas regiões onde a curva é mais alta, significa uma maior 
densidade de observações. No exemplo acima, conforme se aumenta o salário, observa-se que a densidade de frequência vai 
diminuindo. 


Figura 2.20 (b) Histograma alisado para a variável S: salário. 
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3. Frequências acumuladas. Uma outra medida muito usada para descrever dados quantitativos é a frequência acumulada, que 
indica quantos elementos, ou que porcentagem deles, estão abaixo de um certo valor. Na tabela a seguir, a terceira e a quinta 
colunas indicam respectivamente a frequência absoluta acumulada e a proporção (porcentagem) acumulada. Assim, observando a 
tabela podemos afirmar que 27,78% dos indivíduos ganham até oito salários mínimos; 61,11% ganham até 12 salários mínimos; 
83,33% ganham até 16 salários mínimos; 97,22% ganham até 20 salários mínimos e 100% dos funcionários ganham até 24 
salários. 


Classe de salários Porcentagem 100 f; | Porcentagem acumulada 100 F, 
4,00 | 8,00 27,78 27,78 
8,00 |-— 12,00 38,98 61,11 
12,00 16,00 22,22 83,33 
16,00: 20,00 13,89 97,22 
20,00 -- 24,00 2,78 100,00 
Total 36 — 100,00 — 


A Figura 2.21 é a ilustração gráfica da porcentagem acumulada. 


Figura 2.21 Porcentagens acumuladas para o Problema 15. 
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Este gráfico pode ser usado para fornecer informações adicionais. Por exemplo, para saber qual o salário s tal que 50% dos 
funcionários ganhem menos do que s, basta procurar o ponto (s, 50) na curva. Observando as linhas pontilhadas no gráfico, 
verificamos que a solução é um pouco mais do que 10 salários mínimos. 

4. Frequências acumuladas (continuação). Para um tratamento estatístico mais rigoroso das variáveis quantitativas, costuma-se 
usar uma definição mais precisa para a distribuição das frequências acumuladas. Em capítulos posteriores será vista a sua 
utilização. 

Definição. Dadas n observações de uma variável quantitativa e um número x real qualquer, indicar-se-á por N(x) o número de 
observações menores ou iguais a x, e chamar-se-á de função de distribuição empírica (f.d.e.) a função F,(x) ou Fo(x). 


Fa) = E (x) = NO) 


Exemplo 2.12 Para a variável S = salário dos 36 funcionários listados na Tabela 2.1, é fácil verificar 
que: 
0, ses < 4,00 
136, se4,00<s< 4,56 
Fds)=12/36, se4,56<s<5,25 


I, ses223,% 


O gráfico está na Figura 2.22. Aqueles não familiarizados com a representação gráfica de 
funções, recomenda-se a leitura de Morettin, Hazzan & Bussab (2005). 


Figura 2.22 Função de distribuição empírica para o Exemplo 2.12. 
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Exemplo 2.13 Esta definição também vale para variáveis quantitativas discretas. Assim, para a 
variável número de filhos resumida na Tabela 2.5, tem-se a seguinte f.d.e.: 


0,00, sex< 0 
0,20, se0sx<l 
0,45, selsx<2 
0,80, se2sx<3 
0,95, se3<sx<s 
1,00, sexz5 


Fo (x) = 


cujo gráfico é o da Figura 2.23. 


Figura 2.23 Função de distribuição empírica para o Exemplo 2.13. 
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5. Ramo-e-folhas (continuação). Os dados abaixo referem-se à produção, em toneladas, de dado produto, para 20 companhias 
químicas (numeradas de 1 a 20). 


(1, 50), (2, 280), (3, 560), (4, 170), (5, 180), 
(6, 500), (7, 250), (8, 200), (9, 1.050), (10, 240), 
(11, 180), (12, 1.000), (13, 1.100), (14, 120), (15, 4.200), 
(16, 5.100), (17, 480), (18, 90), (19, 870), (20, 360). 
Vemos que os valores estendem-se de 50 a 5.100 e, usando uma representação semelhante à da Figura 2.9, teríamos um 


grande número de linhas. A Figura 2.24 (a) mostra uma outra forma de ramo-e-folhas, com ramos divididos. A divisão ocorre 


no ramo, cada vez que se muda por um fator de 10. 

Uma economia de 4 linhas poderia ser obtida, representando-se os valores 50 e 90 da Figura 2.24 (a) num ramo 
denominado 0. Obtemos a Figura 2.24 (b). 

Os pacotes computacionais trazem algumas opções adicionais ao construir um ramo-e-folhas. Por exemplo, podemos ter a 
contagem do número de folhas em cada ramo, como mostra a Figura 2.25 (a). Aqui, temos o ramo-e-folhas dos salários dos 


empregados da Tabela 2.1. Na Figura 2.25 (b), acrescentamos as contagens de folhas a partir de cada extremo até o ramo que 
contém a mediana. Esse tipo de opção é chamado profundidade (depth) nos pacotes. 


Figura 2.24 Ramo-e-folhas das produções de companhias químicas. 
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4 Bo 8 70 
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7 1 050, 000, 100 
8 70 2 
9 3 
4 200 
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3 
4 200 
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Figura 2.25 Ramo-e-folhas com: (a) frequências em cada ramo, (b) profundidade. 
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Capítulo 3 


Medidas-Resumo 


3.1 Medidas de Posição 


Vimos que o resumo de dados por meio de tabelas de frequências e ramo-e-folhas fornece 
muito mais informações sobre o comportamento de uma variável do que a própria tabela original 
de dados. Muitas vezes, queremos resumir ainda mais estes dados, apresentando um ou alguns 
valores que sejam representativos da série toda. Quando usamos um só valor, obtemos uma 
redução drástica dos dados. Usualmente, emprega-se uma das seguintes medidas de posição (ou 
localização) central: média, mediana ou moda. 

A moda é definida como a realização mais frequente do conjunto de valores observados. Por 
exemplo, considere a variável Z, número de filhos de cada funcionário casado, resumida na 
Tabela 2.5 do Capítulo 2. Vemos que a moda é 2, correspondente à realização com maior 
frequência, 7. Em alguns casos, pode haver mais de uma moda, ou seja, a distribuição dos 
valores pode ser bimodal, trimodal etc. 

A mediana é a realização que ocupa a posição central da série de observações, quando estão 
ordenadas em ordem crescente. Assim, se as cinco observações de uma variável forem 3, 4, 7,8 
e 8, a mediana é o valor 7, correspondendo à terceira observação. Quando o número de 
observações for par, usa-se como mediana a média aritmética das duas observações centrais. 
Acrescentando-se o valor 9 à série acima, a mediana será (7 + 8)/2 = 7,5. 

Finalmente, a média aritmética, conceito familiar ao leitor, é a soma das observações dividida 
pelo número delas. Assim, a média aritmética de 3,4, 7,8e86(3+4+7+8+8)5=6. 


Exemplo 3.1 Usando os dados da Tabela 2.5, já encontramos que a moda da variável Z é 2. Para a 
mediana, constatamos que esta também é 2, média aritmética entre a décima e a décima primeira 
observações. Finalmente, a média aritmética será 


4x0+5x1+7x2+3x3+5xl 33 1.65 
20 Ca 


Neste exemplo, as três medidas têm valores próximos e qualquer uma delas pode ser usada 
como representativa da série toda. A média aritmética é, talvez, a medida mais usada. Contudo, 
ela pode conduzir a erros de interpretação. Em muitas situações, a mediana é uma medida mais 
adequada. Voltaremos a este assunto mais adiante. 

Vamos formalizar os conceitos introduzidos acima. Se x,, ..., x, são os n valores (distintos ou 


não) da variável X, a média aritmética, ou simplesmente média, de X pode ser escrita 


Mt  Ub % (3.1) 


pa) 
n n er 


e = 


Agora, se tivermos n observações da variável X, das quais n, são iguais a x,, n, são iguais a x, 
etc., n, iguais a x,, então a média de X pode ser escrita 


nx +nXxA+.+ nx RE: 

-= — h4 2% EE — 2N 

£= - ni) nx. (3.2) 
1 


Se f, = n/n representar a frequência relativa da observação x, então (3.2) também pode ser 
escrita 


=D 4x, (3.3) 


Consideremos, agora, as observações ordenadas em ordem crescente. Vamos denotar a menor 
observação por x,,, a segunda por x,,, e assim por diante, obtendo-se 


%) EXy SEX) EX: (3.4) 


Por exemplo, sex,=3,x,=-2,x,=6,x,=1,x,=3,então-2<1<3<3< 6, de modo que x,, 
=2,%n=1X%3)=3X%g=3eX9=6. 
As observações ordenadas como em (3.4) são chamadas estatísticas de ordem. 
Com essa notação, a mediana da variável X pode ser definida como 
Xecsino se n impar; 
E 
X a + x i 
(3) (is) 


e a RO 


md(X) = (3.5) 


Exemplo 3.2 A determinação das medidas de posição para uma variável quantitativa contínua, por 
meio de sua distribuição de frequências, exige aproximações, pois perdemos a informação dos 
valores das observações. Consideremos a variável S: salário dos 36 funcionários da Companhia 
MB, agrupados em classes de salários, conforme a Tabela 2.6. Uma aproximação razoável é 
supor que todos os valores dentro de uma classe tenham seus valores iguais ao ponto médio desta 
classe. Este procedimento nos deixa na mesma situação do caso discreto, em que as medidas são 
calculadas usando-se os pares (x, n;) ou (x, f), como em (3.2) e (3.3). 


A moda, mediana e média para os dados da Tabela 2.6 são, respectivamente, 


mo(S) = 10,00, 
md(S) = 10,00, 
— 10x 6,00 +12 x 10,00 +8 x 14,00 + 5 x 18,00 + 1 x 22,00 
s = = 11,22. 


36 


Observe que colocamos o sinal de = e não de igualdade, pois os valores verdadeiros não são 


os calculados. Por exemplo, a mediana de s é a média entre as duas observações centrais, quando os dados são 
ordenados, isto é, 9,80 e 10,53, portanto md(S) = 10,16. Quais são, nesse exemplo, a média e moda verdadeiras? 


Observe que, para calcular a moda de uma variável, precisamos apenas da distribuição de 
frequências (contagem). Já para a mediana necessitamos minimamente ordenar as realizações da 
variável. Finalmente, a média só pode ser calculada para variáveis quantitativas. 

Essas condições limitam bastante o cálculo de medidas-resumos para as variáveis qualitativas. 
Para as variáveis nominais somente podemos trabalhar com a moda. Para as variáveis ordinais, 
além da moda, podemos usar também a mediana. Devido a esse fato, iremos apresentar daqui em 
diante medidas-resumo para variáveis quantitativas, que permitem o uso de operações aritméticas 
com seus valores. 


Exemplo 3.2 (continuação) Retomemos os dados da Companhia MB. A moda para a variável V: 
região de procedência é mo(V) = outra. Para a variável Y: grau de instrução, temos que mo(Y) = 
ensino médio e md(Y) = ensino médio. 

Veremos, na Seção 3.3, que a mediana é uma medida resistente, ao passo que a média não o é, 
em particular para distribuições muito assimétricas ou contendo valores atípicos. Por outro lado, 
a média é ótima (num sentido que será discutido no Capítulo 10) se a distribuição dos dados for 
aproximadamente normal. 

Uma outra medida de posição também resistente é a média aparada, definida no Problema 39. 
Essa medida envolve calcular a média das observações centrais, desprezando-se uma 
porcentagem das iniciais e finais. 


3.2 Medidas de Dispersão 


O resumo de um conjunto de dados por uma única medida representativa de posição central 
esconde toda a informação sobre a variabilidade do conjunto de observações. Por exemplo, 
suponhamos que cinco grupos de alunos submeteram-se a um teste, no qual obtiveram as 
seguintes notas: 

Grupo A (variável X): 3, 4,5, 6, 7. 

Grupo B (variável Y): 1, 3, 5, 7,9. 

Grupo C (variável Z): 5, 5, 5,5, 5 

Grupo D (variável W): 3, 5, 5, 7. 

Grupo E (variável V): 3, 5,5, 6, 6. 


Vemos que Xx=y=Z=w=v=5,0, A identificação de cada uma destas séries por sua média (5, 
em todos os casos) nada informa sobre suas diferentes variabilidades. Notamos, então, a 
conveniência de serem criadas medidas que sumarizem a variabilidade de um conjunto de 
observações e que nos permita, por exemplo, comparar conjuntos diferentes de valores, como os 
dados acima, segundo algum critério estabelecido. 

Um critério frequentemente usado para tal fim é aquele que mede a dispersão dos dados em 
torno de sua média, e duas medidas são as mais usadas: desvio médio e variância. O princípio 
básico é analisar os desvios das observações em relação à média dessas observações. 

Para o grupo A acima os desvios x, - x são: -2, -1, 0, 1, 2. É fácil ver (Problema 14 (a)) que, 
para qualquer conjunto de dados, a soma dos desvios é igual a zero. Nestas condições, a soma 
dos desvios >“ (x,-x) não é uma boa medida de dispersão para o conjunto A. Duas opções são: 
(a) considerar o total dos desvios em valor absoluto; (b) considerar o total dos quadrados dos 
desvios. Para o grupo A teríamos, respectivamente, 


5 
>hu-m]=2+1+0+1+2=6, 
t=1 


> (x-2) =4+1+0+1+4=10, 


O uso desses totais pode causar dificuldades quando comparamos conjuntos de dados com 
números diferentes de observações, como os conjuntos A e D acima. Desse modo, é mais 
conveniente exprimir as medidas como médias, isto é, o desvio médio e a variância são definidos 
por 


Shi -z] 
astrja 2877 6.9) 

> (x E x) 
var(X)= EL ' (3.7) 


n 


respectivamente. Para o grupo A temos 
dm(X) = 6/5 = 1,2, 
var(X) = 10/5 = 2,0, 
enquanto para o grupo D temos 
dm(W) = 4/4 = 1,0, 
var(W) = 8/4 = 2,0. 

Podemos dizer, então, que, segundo o desvio médio, o grupo D é mais homogêneo que A, 
enquanto ambos são igualmente homogêneos, segundo a variância. 

Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados (por 
exemplo, se os dados são expressos em cm, a variância será expressa em cm?), pode causar 
problemas de interpretação. Costuma-se usar, então, o desvio padrão, que é definido como a raiz 
quadrada positiva da variância. Para o grupo A o desvio padrão é 


dp(X) = Jvar(X) = 2 = 1,41. 


Ambas as medidas de dispersão (dm e dp) indicam, em média, qual será o “erro” (desvio) 
cometido ao tentar substituir cada observação pela medida resumo do conjunto de dados (no 
caso, a média). 


Exemplo 3.3 Vamos calcular as medidas de dispersão acima para a variável Z = número de filhos, 
resumida na Tabela 2.5. Como vimos no Exemplo 3.1, z = 1,65. Os desvios são z, - z: -1,65; 
-0,65; 0,35; 1,35; 3,35. Segue-se que 


4x(1,65)+5x(0,65)+ 7 x (0,35) + 3x (1,35)+ 1x (3,35) 


dm(Z) 2% > = 0,98. 


Também, 


4(-1,65) + 5(-0,65) + 7(0,35) +3(1,35) + 1(3,35) 
20 


var(Z) = = 1,528. 


Consequentemente, o desvio padrão de Z é 
dp(Z) = 1,528 = 1,24. 


Suponha que observemos n, vezes os valores x, etc., n, vezes o valor x, da variável X. Então, 


dp(X) = Jvar(X). (3.10) 
O cálculo (aproximado) das medidas de dispersão no caso de variáveis contínuas, agrupadas 


em classes, pode ser feito de modo análogo àquele usado para encontrar a média no Exemplo 
2a, 


Exemplo 3.4 Consideremos a variável S = salário. A média encontrada no Exemplo 3.2 foi s = 
11,22. Com os dados da Tabela 2.6 e usando (3.9) encontramos 


var(S) = [10(6,00 - 11,22)” + 12(10,00- 11,22) + 8(14- 11,227 
+5(18,00 — 11,22)" + 1(22,00 - 11,22)]/36 = 19,40 


e, portanto, 
dp(S) = 19,40 = 4,40. 

É fácil ver que dm(S) = 3,72. 

Veremos, mais tarde, que a variância de uma amostra será calculada usando-se o denominador 
n - 1, em vez de n. A justificativa será dada naquele capítulo, mas para grandes amostras pouca 
diferença fará o uso de um ou outro denominador. 

Tanto a variância como o desvio médio são medidas de dispersão calculadas em relação à 
média das observações. Assim como a média, a variância (ou o desvio padrão) é uma boa medida 
se a distribuição dos dados for aproximadamente normal. O desvio médio é mais resistente que o 
desvio padrão, no sentido a ser estudado na seção seguinte. 

Poderíamos considerar uma medida que seja calculada em relação à mediana. O desvio 
absoluto mediano é um exemplo e é mais resistente que o desvio padrão. Veja o Problema 41. 

Usando o Problema 14 (b), uma maneira computacionalmente mais eficiente de calcular a 
variância é 

2 
ZA a GA 


var(X) = Sr 


e, no caso de observações repetidas, 


k 


var(X)= 5 fa? -z2. (3.12) 


1=1 


1. Quer se estudar o número de erros de impressão de um livro. Para isso escolheu-se uma amostra de 50 páginas, encontrando- 
se o número de erros por página da tabela abaixo. 
(a) Qual o número médio de erros por página? 
(b) E o número mediano? 
(c) Qual é o desvio padrão? 
(d) Faça uma representação gráfica para a distribuição. 
(e) Se o livro tem 500 páginas, qual é o número total de erros esperado no livro? 


Erros | Frequência 


25 
20 
3 
t 
1 


pp w NH oO 


2. As taxas de juros recebidas por 10 ações durante um certo período foram (medidas em porcentagem) 2,59; 2,64; 2,60; 2,62; 
2,57; 2,55; 2,61; 2,50; 2,63; 2,64. Calcule a média, a mediana e o desvio padrão. 

3. Para facilitar um projeto de ampliação da rede de esgoto de uma certa região de uma cidade, as autoridades tomaram uma 
amostra de tamanho 50 dos 270 quarteirões que compõem a região, e foram encontrados os seguintes números de casas por 
quarteirão: 


2 2 3 10 13 14. 15 15 16 16 
18 18 20 21 2 22 23 24 25 25 
26 27 29 29 30 32 36 42 44 45 
45 46 48 52 58 59 61 61 61 65 
66 66 68 75 78 80 89 90 92 97 


(a) Use cinco intervalos e construa um histograma. 
(b) Determine uma medida de posição central e uma medida de dispersão. 

4. (a) Dê uma situação prática em que você acha que a mediana é uma medida mais apropriada do que a média. 
(b) Esboce um histograma em que a média e a mediana coincidem. Existe alguma classe de histogramas em que isso sempre 
acontece? 
(c) Esboce os histogramas de três variáveis (X, Y e Z) com a mesma média aritmética, mas com as variâncias ordenadas em 
ordem crescente. 

5. Suponha que a variável de interesse tenha a distribuição como na figura abaixo. 


FAVAS 


Você acha que a média é uma boa medida de posição? E a mediana? Justifique. 
6. Numa pesquisa realizada com 100 famílias, levantaram-se as seguintes informações: 


Número de filhos 0 1 2/3 4 5 maisque5 
Frequência de famílias |17 20 28 19 7 4 5 


(a) Qual a mediana do número de filhos? 
(b) E a moda? 
(c) Que problemas você enfrentaria para calcular a média? Faça alguma suposição e encontre-a. 


3.3 Quantis Empíricos 


Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um 
conjunto de dados, pois: 

(a) são afetados, de forma exagerada, por valores extremos; 

(b) apenas com estes dois valores não temos ideia da simetria ou assimetria da distribuição dos 

dados. 

Para contornar esses fatos, outras medidas precisam ser consideradas. 

Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima (ver 
fórmula (3.5). De modo geral, podemos definir uma medida, chamada quantil de ordem p ou p- 
quantil, indicada por q(p), em que p é uma proporção qualquer, O < p< 1, tal que 100p% das 
observações sejam menores do que q(p). 

Indicamos, abaixo, alguns Ea e seus nomes particulares. 


q(0,25) = q,: 1ºQuartil = 25º Percentil 
a(o, cd : Mediana = 2º Quartil = 50º Percentil 
q(0,75) : 3º Quartil = 75º Percentil 
a(o, a); 4º Decil 
q(0,95) 95º Percentil 


Dependendo do valor de p, há dificuldades ao se calcular os quantis. Isso é ilustrado no 
exemplo a seguir. 


Exemplo 3.5 Suponha que tenhamos os seguintes valores de uma variável X: 


15,5,5,8, 10,2. 7,40 12; 
Ordenando os valores, obtemos as estatísticas de ordem x, = 2, Xp, = 3,..., X(9) = 15, OU seja, 
teremos 
2<3<5<7<8<10<11<12<15. 
Usando a definição de mediana dada, teremos que md = q(0,5) = q, = xs, = 8. Suponha que 
queiramos calcular os dois outros quartis, q, e q;. A ideia é dividir os dados em quatro partes: 
2357810111215 


Uma possibilidade razoável é, então, considerar a mediana dos primeiros quatro valores para 
obter q,, ou seja, 


Obtemos, então, a sequência 
23(4)57 (8) 1011 (11,5) 12 15 
Observe que a média dos n = 9 valores é x Bi, próximo à mediana. 


Exemplo 3.5 (continuação). Acrescentemos, agora, o valor 67 à lista de nove valores do Exemplo 
3.5, obtendo-se agora os n = 10 valores ordenados: 
2<3<5<7<8B<liQ<li<i2<15<67 
Agora, -x = 14, enquanto que a mediana fica 


Xico + X 
RE 


que está próxima da mediana dos nove valores originais, mas ambas (8 e 9) relativamente longe 
de x . Dizemos que a mediana é resistente (ou robusta), no sentido que ela não é muito afetada 
pelo valor discrepante (ou atípico) 67. 

Para calcular q, e q, para este novo conjunto de valores, considere-os assim dispostos: 


2357891011121567 

de modo que q, = 5 e q, = 12. 

Obtemos, então os dados separados em 4 partes por q,, q, € q5: 

23(5)78 (9) 1011 (12) 15 67 

Suponha, agora, que queiramos calcular q(0,20), ou seja, aquele valor que deixa 20% dos 
dados à sua esquerda, para o conjunto original de n = 9 valores de X. Como 20% das observações 
correspondem a 1,8 observações, qual valor devemos tomar como q(0, 20)? O valor 3, que é a 
segunda observação ordenada, ou 5, ou a média de 3 e 5? Se adotarmos essa última solução, 
então q(0, 20) = q(0, 25) = q,, o que pode não parecer razoável. 

Para responder a essa questão, temos que definir o quantil de uma sequência de valores de 
uma variável de modo apropriado. Isto está feito no Problema 17. 

Se os dados estiverem agrupados em classes, podemos obter os quantis usando o histograma. 
Por exemplo, para obter a mediana, sabemos que ela deve corresponder ao valor da abscissa que 
divide a área do histograma em duas partes iguais (50% para cada lado). Então, usando 


argumentos geométricos, podemos encontrar um ponto, satisfazendo essa propriedade. Vejamos 
como proceder por meio de um exemplo. 


Exemplo 3.6 Vamos repetir abaixo a Figura 2.7, que é o histograma da variável S = salário dos 
empregados da Companhia MB. 


22% 


28% 14% Es = 


o 4,00 8,00 md 12,00 16,00 20,00 24,00 


Devemos localizar o ponto das abscissas que divide o histograma ao meio. A área do primeiro 
retângulo corresponde a 28% do total, os dois primeiros a 61%; portanto, a mediana md é algum 
número situado entre 8,00 e 12,00. Ou melhor, a mediana irá corresponder ao valor md no 
segundo retângulo, tal que a área do retângulo de base 8,00 md e mesma altura que o retângulo 
de base 8,00 = 12,00, seja 22% (28% do primeiro retângulo mais 22% do segundo, perfazendo os 
50%). Consulte a figura para melhor compreensão. Pela proporcionalidade entre a área e a base 
do retângulo, temos: 


12,00 - 8,00 md-8,00 
3% 2% 


ou 
22% 


md — 8,00 = 33% 400, 


logo 

md = 8,00 + 2,67 = 10,67, 
que é uma expressão mais precisa para a mediana do que a mediana bruta encontrada 
anteriormente. 

O cálculo dos quantis pode ser feito de modo análogo ao cálculo da mediana, usando 
argumentos geométricos no histograma. Vejamos a determinação de alguns quantis, usando os 
dados do último exemplo. 

(a) q(0,25): Verificamos que q(0,25) deve estar na primeira classe, pois a proporção no 

primeiro retângulo é 0,28. Logo, 


q(0,25)- 4,00 8,00 - 4,00 
25% ” a ' 


e então 


25 
q(0,25) = 4,00 + 38 400 = 7,57. 


(b) q(0,95): Analisando a soma acumulada das proporções, verificamos que este quantil deve 
pertencer à quarta classe, e que nesse retângulo devemos achar a parte correspondente a 
12%, pois a soma acumulada até a classe anterior é 83%, faltando 12% para atingirmos os 
95%. Portanto, 


q(0,95) - 16,00 20,00 - 16,00 
12% "O 14% 


logo 


12 
q(0,95) = 16,00 + 17 x 4 = 19,43. 


(c) q(0,75): De modo análogo, concluímos que o terceiro quantil deve pertencer ao intervalo 
12,00 = 16,00, portanto 
q(0,75) - 12,00 16,00 - 12,00 


1% Q% 


q(0,75) = 14,55. 


Uma medida de dispersão alternativa ao desvio padrão é a distância interquartil, definida 

como a diferença entre o terceiro e primeiro quartis, ou seja, 
d,= 3" GR. (3.13) 

Para o Exemplo 3.5, temos q, = 4, q; = 11,5, de modo que d, = 7,5. Para um cálculo mais 
preciso, veja o Problema 17. Lá obtemos q, = 4,5, q, = 11,25, logo d, = 6,75. 

Os quartis q(0,25) = q, q(0,5) = q, e q(0,75) = q, são medidas de localização resistentes de 
uma distribuição. 

Dizemos que uma medida de localização ou dispersão é resistente quando for pouco afetada 
por mudanças de uma pequena porção dos dados. A mediana é uma medida resistente, ao passo 
que a média não o é. Para ilustrar esse fato, considere as populações dos 30 municípios do Brasil, 
do CD-Municípios. Se descartarmos Rio de Janeiro e São Paulo, a média das populações dos 28 
municípios restantes é 100,6 e a mediana é 82,1. Para todos os dados, a média pasa a ser 145,4, 
ao passo que a mediana será 84,3. Note que a média aumentou bastante, influenciada que foi 
pelos dois valores maiores, que são muito discrepantes da maioria dos dados. Mas a mediana 
variou pouco. O desvio padrão também não é uma medida resistente. Verifique como este varia 
para este exemplo dos municípios. 

Os cinco valores, x, Q,, Gp, q; € Xn> SãO importantes para se ter uma boa ideia da assimetria da 
distribuição dos dados. Para uma distribuição simétrica ou aproximadamente simétrica, 
deveríamos ter: 

(a) q>- Xu | Xm- 1 

(b)q,-q 1 q;- q; 

(O) q -Xa | Xm- q3 

(d) distâncias entre mediana e q,, q; menores do que distâncias entre os extremos e qg,, q. 

A diferença q, - x4, é chamada dispersão inferior e x, - q» é a dispersão superior. A condição 
(a) nos diz que as duas dispersões devem ser aproximadamente iguais, para uma distribuição 
aproximadamente simétrica. 

A Figura 3.1 ilustra estes fatos para a chamada distribuição normal ou gaussiana. 


Figura 3.1 Uma distribuição simétrica: normal ou gaussiana. 


Xay 4% 4% q X) 


Na Figura 3.2, temos ilustradas estas cinco medidas para os n = 9 valores do Exemplo 3.5. 


Figura 3.2 Quantis e distâncias para o Exemplo 3.5. 


As cinco estatísticas de ordem consideradas acima podem ser representadas esquematicamente 
como na Figura 3.3, em que também incorporamos o número de observações, n. Representamos 
a mediana por md, os quartis por q e os extremos por E. Podemos ir além, considerando os 
chamados oitavos, ou seja, O primeiro oitavo, que corresponde a q(0,125), o sétimo oitavo, que 
corresponde a q(0,875) etc. Teríamos, então, sete números para representar a distribuição dos 
dados. Em geral, podemos considerar as chamadas letras-resumos, descendo aos dezesseis-avos, 
trinta e dois-avos etc. Para detalhes, ver Hoaglin, Mosteller and Tukey (1983). 


Figura 3.3 Esquema dos cinco números. 
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Exemplo 3.7 Os aplicativos R, SPlus e Minitab, assim como a planilha Excel, possuem ferramentas 
que geram as principais medidas descritas nesse capítulo e outras. Por exemplo, o comando 
Describe do Minitab, usado para as populações dos municípios brasileiros produz a saída do 
Quadro 3.1. 


Quadro 3.1 Medidas-resumo para o CD-Municípios. Minitab. 


MTB > Describe C1. 
Descriptive Statistics 


Variable N Mean Median Trmean StDev SE Mean 


ct 30 1454 843 104.7 186.6 34.1 
Variable Min Max Q1 Q3 
ct 46.3 988.8 63.5 139.7 


Aqui, temos N = 30 dados, a média é 145,4, a mediana 84,3, o desvio padrão 186,6, o menor 
valor 46,3, o maior valor 988,8, o primeiro quartil 63,5 e o terceiro quartil 139,7. Além desses 
valores, o resumo traz a média aparada (trimmed mean) e o erro padrão da média, a ser tratado 
no Capítulo 11. Esse é dado por s/n = 186,6/430 = 34,1. 

O comando summary do R e SPlus produzem a saída do Quadro 3.2 para os mesmos dados. 
Note a diferença no cálculo dos quantis q(0,25) e q(0,75). Conclui-se que é necessário saber 


como cada programa efetua o cálculo de determinada estatística, para poder reportá-lo. 


Quadro 3.2 Medidas-resumo para o CD-Municípios. R e SPlus. 


> summary (munic) 


Min. Ist Qu. Median Mean 3rd Qu. Max. 
46.3 6448 843 145.4 134.3 988.8 


7. Obtenha o esquema dos cinco números para os dados do Problema 3. Calcule a distância interquartil e as dispersões inferior e 
superior. Baseado nessas medidas, verifique se a forma da distribuição dos dados é normal. 
8. Refaça o problema anterior, utilizando desta vez os dados do Problema 5 do Capítulo 2. 
9. Obter os três quartis, q(0,1) e q(0,90) para os dados do Problema 3. 
10. Para a variável população do CD-Brasil, obtenha q(0,10), q(0,25), q(0,50), q(0,75), q(0,80) e q(0,95). 


3.4 Box Plots 


A informação contida no esquema dos cinco números da Figura 3.3 pode ser traduzida 
graficamente num diagrama, ilustrado na Figura 3.4, que chamaremos de box plot. Murteira 
(1993) usa o termo “caixa-de-bigodes”. 


Figura 3.4 Box Plot. 


Para construir este diagrama, consideremos um retângulo em que estão representados a 
mediana e os quartis. A partir do retângulo, para cima, segue uma linha até o ponto mais remoto 
que não exceda LS = q; + (1,5)d,, chamado limite superior. De modo similar, da parte inferior do 
retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor do que LI = 
q - (1,5)d, chamado limite inferior. Os valores compreendidos entre esses dois limites são 
chamados valores adjacentes. As observações que estiverem acima do limite superior ou abaixo 
do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos. 
Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou 
valores atípicos. 

O box plot dá uma ideia da posição, dispersão, assimetria, caudas e dados discrepantes. A 
posição central é dada pela mediana e a dispersão por d,. As posições relativas de q,, q,, q; dão 
uma noção da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que 
vão do retângulo aos valores remotos e pelos valores atípicos. 


Exemplo 3.8 Retomemos o exemplo dos 15 maiores municípios do Brasil, ordenados pelas 
populações. Usando o procedimento do Problema 17 (veja também o Problema 18), obtemos q, 


= 105,7, q, = 135,8, q, = 208,6. O diagrama para os cinco números Xap do & = md, q, Xqs) está 
na Figura 3.5 abaixo. 


Figura 3.5 Esquema dos cinco números para o Exemplo 3.8. 


Temos que 
LI= q, - (L,5)d, = 105,7 - (1,5) (102,9) = - 48,7, 
LS = q, + (1L,5)d, = 208,6 + (1,5) (102,9) = 362,9. 
Então, as cidades com populações acima de 3.629.000 habitantes são pontos exteriores, ou 
seja, Rio de Janeiro e São Paulo. O box plot correspondente está na Figura 3.6. Vemos que os 


dados têm uma distribuição assimétrica à direita, com 13 valores concentrados entre 80 e 230 e 
duas observações discrepantes, bastante afastadas do corpo principal dos dados. 


Figura 3.6 Box plot para os quinze maiores municípios do Brasil. 
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Do ponto de vista estatístico, um outlier pode ser produto de um erro de observação ou de 
arredondamento. No exemplo acima, as populações de São Paulo e Rio de Janeiro não são 
outliers neste sentido, pois elas representam dois valores realmente muito diferentes dos demais. 
Daí, usarmos o nome pontos (ou valores) exteriores. Contudo, na prática, estas duas 
denominações são frequentemente usadas com o mesmo significado: observações fora de lugar, 
discrepantes ou atípicas. 

A Figura 3.7 mostra o box plot para as populações dos trinta municípios brasileiros, feito com 
oR. 


Figura 3.7 Box plot com R. 
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A justificativa para usarmos os limites acima, LI = q, - (1,5)d, e LS = q; + (1,5)d,, para definir 
as observações atípicas é a seguinte: considere uma curva normal com média zero e, portanto, 
com mediana zero. E fácil verificar (veja o Capítulo 7 e Tabela III) que q, = — 0,6745, q, = 0, q; 
= 0,6745 e portanto d, = 1,349. Segue-se que os limites são LI = —2,698 e LS = 2,698. A área 
entre esses dois valores, embaixo da curva normal, é 0,993, ou seja, 99,3% da distribuição está 
entre esses dois valores. Isto é, para dados com uma distribuição normal, os pontos exteriores 
constituirão cerca de 0,7% da distribuição. Veja a Figura 3.8. 


Figura 3.8 Área sob a curva normal entre LIe LS. 


11. Construa o box plot para os dados do Exemplo 2.3, Capítulo 2. O que você pode concluir a respeito da distribuição? 
12. Refaça a questão anterior com os dados do Problema 3 deste capítulo. 
13. Faça um box plot para o Problema 10. Comente sobre a simetria, caudas e presença de valores atípicos. 


3.5 Gráficos de Simetria 


Os quantis podem ser úteis para se verificar se a distribuição dos dados é simétrica (ou 
aproximadamente simétrica). 
Se um conjunto de observações for perfeitamente simétrico devemos ter 


q(0,5) - xp = Xq+1-9 - 9(0,5), (3.14) 


em que i = 1,2,...,n/2,senfor parei= 1,2,..., (n + 1)/2, se n for ímpar. 
Pela relação (3.14), vemos que, se os quantis da direita estão mais afastados da mediana, do 
que os da esquerda, os dados serão assimétricos à direita. Se ocorrer o contrário, os dados serão 


assimétricos à esquerda. A Figura 3.9 ilustra essas duas situações. 


Figura 3.9 Distribuições assimétricas. 
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Para os dados do Exemplo 3.8, vemos que as observações são assimétricas à direita. Em geral, 
esse tipo de situação ocorre com dados positivos. 

Podemos fazer um gráfico de simetria, usando a identidade (3.14). Chamando de u, o primeiro 
membro e de v, o segundo membro, fazendo-se um gráfico cartesiano, com os u;'s como 
abscissas e os v;'s como ordenadas, se os dados forem aproximadamente simétricos, os pares (u,, 
v;) estarão dispersos ao redor da reta v = u. 


Exemplo 3.9 Considere os dados que, dispostos em ordem crescente, ficam representados no eixo 
real como na Figura 3.10. 


Figura 3.10 Dados aproximadamente simétricos. 
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Esses dados são aproximadamente simétricos, pois como q, = 8, u,=Q Xp V;=Xn+1-)" Ih 
teremos: 
u,=8,0-0,5=7,5,v,= 15,3-8,0 = 7,3, 
u,=8,0-2,3=5,7,v,=13,5-8,0=5,5, 
u,=8,0-4,0=4,0, v,= 12,0-8,0 = 4,0, 
u,=8,0-6,4=1,6,v,-9,8-8,0= 1,8. 
A Figura 3.11 mostra o gráfico de simetria para as populações dos trinta municípios do Brasil. 
Vemos que a maioria dos pontos estão acima da reta v = u, mostrando a assimetria à direita da 


distribuição dos valores. Nessa figura, vemos destacados os pontos correspondentes a Rio de 
Janeiro e São Paulo. 


Figura 3.11 Gráfico de simetria para o CD-Municípios. 


3.6 Transformações 


Vários procedimentos estatísticos são baseados na suposição de que os dados provêm de uma 
distribuição normal (em forma de sino) ou então mais ou menos simétrica. Mas, em muitas 
situações de interesse prático, a distribuição dos dados da amostra é assimétrica e pode conter 
valores atípicos, como vimos em exemplos anteriores. 


Se quisermos utilizar tais procedimentos, o que se propõe é efetuar uma transformação das 


observações, de modo a se obter uma distribuição mais simétrica e próxima da normal. Uma 
família de transformações frequentemente utilizada é 


xP, sep >0 
xl) =4ên(x), sep=0 (3.15) 
E, sep <0. 


Normalmente, o que se faz é experimentar valores de p na sequência 
..,-3,-2,-1,-1/2, -1/3, -1/4,0, 1/4, 1/3, 1/2, 1,2,3, ... 
e para cada valor de p obtemos gráficos apropriados (histogramas, box plots etc.) para os dados 
originais e transformados, de modo a escolhermos o valor mais adequado de p. 
Vimos que, para dados positivos, a distribuição dos dados é usualmente assimétrica à direita. 
Para essas distribuições, a transformação acima com O < p< 1 é apropriada, pois valores grandes 


de x decrescem mais, relativamente a valores pequenos. Para distribuições assimétricas à 
esquerda, tome p > 1. 


Exemplo 3.10 Consideremos os dados das populações do CD-Municípios e tomemos alguns valores 
de p: 0, 1/4, 1/3, 1/2. Na Figura 3.12, temos os histogramas para os dados transformados e, na 
Figura 3.13, os respectivos box plots. Vemos que p = O (transformação logarítmica) e p = 1/3 
(transformação raiz cúbica) fornecem distribuições mais próximas de uma distribuição simétrica. 


Figura 3.12 Histogramas para os dados transformados. CD-Municípios. 
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Figura 3.13 Box plots para os dados transformados. CD-Municípios. R. 
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3.7 Exemplos Computacionais 


Vamos retomar os exemplos estudados no Capítulo 2 e complementar as análises feitas com as 
medidas e gráficos expostos neste capítulo. Além do R, vamos usar o Minitab e SPlus, para ver 
as diferenças entre os programas ao calcular certas medidas, como os quantis. 


Exemplo 2.10 (continuação) Aqui temos as notas em Estatística de 100 alunos de Economia. 
Temos, no Quadro 3.3, as principais medidas desse conjunto de dados fornecidas por uma 
variante do comando summary do R e do SPlus. O comando Describe do Minitab oferece dez 
medidas. Para obter essa mesmas medidas pelo R, utilizamos a função summary2, que pode ser 
consultada nos scripts do Capítulo 3. 


Quadro 3.3 Medidas descritivas para o CD-Notas. R. 


> summary2 (cdnotas$nota) 
[1] 

N 100.00000 

Min. 1.50000 

Ist Qu. 4.88000 

Median 6.00000 

Mean 5.92000 


3rd Qu. 7.12000 
Max. 10.00000 
Tr Mean 5.84375 
Var 3.25188 
StDev 1.80330 
SE Mean 0.13429 


Vemos, por exemplo, que q, = 4,88, q, = 6,00, e q, = 7,12. Portanto, d, =G-qÂ-=2,24.0 
desvio padrão é 1,8. 

Usando o Minitab, é possível verificar que esses quantis são diferentes, indicando que 
distintos programas podem utilizar métodos diferentes ara calcular os quantis. 

Vimos que a distribuição das notas é razoavelmente simétrica, não havendo valores atípicos, o 
que é confirmado pelo box plot da Figura 3.14, obtida pelo comando R: 


boxplot(cdnotas&nota, pch="-", col="lightblue", border="darkgrey") 


Figura 3.14 Box plot para o CD-Notas. R. 


O gráfico de simetria da Figura 3.15 pode ser obtido pelos comandos do R: 


u<-median(cdnotas$nota)-cdnotas$nota 

v<-cdnotas$nota-median(cdnotas$nota) 

plot(sort(u),sort(v), pch=19, xlab="ui", ylab="vi",col="darkblue" xlim=c(0,max(u)),ylim=c(0,max(v))) 
title("Figura 3.15: Gráfico de simetria para o CD-Notas.") 

abline(0,1) 


Note que os pontos dispôem-se ao redor da reta u=v, estando vários deles sobre ela, indicando 
a quase-simetria dos dados. Deveríamos ter 50 pontos no gráfico, mas há vários pontos (u,v,) 


repetidos. 


Figura 3.15 Gráfico de simetria para o CD-Notas. 


Exemplo 2.11 (continuação) Os dados diários de temperatura na cidade de São Paulo, no período 
considerado, são ligeiramente assimétricos à esquerda. O comando summary do R e do SPlus 
fornece as medidas descritivas do Quadro 3.4. 


Quadro 3.4 Medidas descritivas para temperaturas. R e SPlus. 


> summary (temp) 


Min. Ist Qu. Median Mean 3rd Qu. Max. 
12.3 16 17.7 17.22 18.6 21 


Temos, por exemplo, q,, = 16, q, = 17,7 e q; = 18,6. A amplitude amostral é x, -Xm = 8,7 ea 
distância interquartil é d, = 2,6. 


O box plot e o gráfico de simetria estão nas Figuras 3.16 e 3.17, respectivamente, que mostram 
a assimetria dos dados. Todos os pontos estão abaixo da reta u=v, mostrando que u>v,, para todo 
i = 1,2,...,60, ou seja, as distâncias da mediana aos quantis inferiores são maiores do que as 
distâncias dos quantis superiores à mediana, indicando uma distribuição assimétrica à esquerda. 
Obtém-se essas duas figuras utilizando comandos similares àqueles do Exemplo 2.10. 


Figura 3.16 Box plot para as temperaturas de São Paulo. CD-Poluição. R. 
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Figura 3.17 Gráfico de simetria para as temperaturas de São Paulo. CD-Poluição. R. 
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3.8 Problemas Suplementares 
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15. Usando os resultados da questão anterior, calcule as variâncias dos Problemas 1 e 2 deste capítulo. 
16. Os dados abaixo representam as vendas semanais, em classes de salários mínimos, de vendedores de gêneros alimentícios: 


Vendas semanais | Nº de vendedores 
30 -—- 35 2 
35 |-- 40 10 
40 |-- 45 18 
45 -= 50 50 
50 -- 55 70 
55 |-- 60 30 
60 |-- 65 18 
65 = 70 2 


(a) Faça o histograma das observações. 
(b) Calcule a média da amostra, x. 
(c) Calcule o desvio padrão da amostra, s. 


(d) Qual a porcentagem das observações compreendidas entre x - 2se x + 25? 

(e) Calcule a mediana. 
17. Considere o CD-Municípios e tome somente os 15 maiores, relativamente à sua população. Calcule q(0, 1), g(0, 2), qy, q5; q3 
usando (3.20). 
18. O número de divórcios na cidade, de acordo com a duração do casamento, está representado na tabela abaixo. 

(a) Qual a duração média dos casamentos? E a mediana? 

(b) Encontre a variância e o desvio padrão da duração dos casamentos. 

(c) Construa o histograma da distribuição. 

(d) Encontre o 1º e o 9º decis. 

(e) Qual o intervalo interquantil? 


Anos de casamento | Nº de divórcios 


0 p= 6 2.800 
6- 12 1.400 
12 p= 18 600 
18-24 150 
24-30 50 


19. O Departamento Pessoal de uma certa firma fez um levantamento dos salários dos 120 funcionários do setor administrativo, 
obtendo os resultados (em salários mínimos) da tabela abaixo. 

(a) Esboce o histograma correspondente. 

(b) Calcule a média, a variância e o desvio padrão. 

(c) Calcule o 1º quartil e a mediana. 


Faixa salarial | Frequência relativa 


0-2 0,25 
214 0,40 
4-6 0,20 
6t-- 10 0,15 


(d) Se for concedido um aumento de 100% para todos os 120 funcionários, haverá alteração na média? E na variância? 
Justifique sua resposta. 
(e) Se for concedido um abono de dois salários mínimos para todos os 120 funcionários, haverá alteração na média? E na 
variância? E na mediana? Justifique sua resposta. 
20. O que acontece com a mediana, a média e o desvio padrão de uma série de dados quando: 
(a) cada observação é multiplicada por 2? 
(b) soma-se 10 a cada observação? 
(c) subtrai-se a média geral x de cada observação? 
(d) de cada observação subtrai-se x e divide-se pelo desvio padrão dp(x)? 
21. Na companhia A, a média dos salários é 10.000 unidades e o 3º quartil é 5.000. 


(a) Se você se apresentasse como candidato a funcionário nessa firma e se o seu salário fosse escolhido ao acaso entre todos os 

possíveis salários, o que seria mais provável: ganhar mais ou menos que 5.000 unidades? 

(b) Suponha que, na companhia B, a média dos salários seja 7.000 unidades, a variância praticamente zero e o salário também 

seja escolhido ao acaso. Em qual companhia você se apresentaria para procurar emprego? 
22. Estamos interessados em estudar a idade dos 12.325 funcionários da Cia. Distribuidora de Leite Teco, e isso será feito por 
meio de uma amostra. Para determinar que tamanho deverá ter essa amostra, foi colhida uma amostra-piloto. As idades 
observadas foram: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24. 

(a) Determine as medidas descritivas dos dados que você conhece. 

(b) Qual dessas medidas você acredita que será a mais importante para julgar o tamanho final da amostra? Por quê? 
23. Estudando-se o consumo diário de leite, verificou-se que, em certa região, 20% das famílias consomem até um litro, 50% 
consomem entre um e dois litros, 20% consomem entre dois e três litros e o restante consome entre três e cinco litros. Para a 
variável em estudo: 

(a) Escreva as informações acima na forma de uma tabela de frequências. 

(b) Construa o histograma. 

(c) Calcule a média e a mediana. 

(d) Calcule a variância e o desvio padrão. 

(e) Qual o valor do 1º quartil? 
24. A distribuição de frequências do salário anual dos moradores do bairro A que têm alguma forma de rendimento é apresentada 
na tabela abaixo: 


Faixa salarial (x 10 salários mínimos) | Frequência 

0-2 10.000 
2-4 3.900 
4-6 2.000 
6-8 1.100 
8-- 10 800 

10-12 700 

12-14 2.000 
Total 20.500 


(a) Construa um histograma da distribuição. 

(b) Qual a média e o desvio padrão da variável salário? 

(c) O bairro B apresenta, para a mesma variável, uma média de 7,2 e um desvio padrão de 15,1. Em qual dos bairros a 
população é mais homogênea quanto à renda? 

(d) Construa a função de distribuição acumulada e determine qual a faixa salarial dos 10% mais ricos da população do bairro. 
(e) Qual a “riqueza total” dos moradores do bairro? 

25. Dado o histograma abaixo, calcular a média, a variância, a moda, a mediana e o 1º quartil. 


30% 


2 4 6 8 10 12 


26. Em uma granja foi observada a distribuição dos frangos em relação ao peso, que era a seguinte: 


Peso (gramas) 


960 |-- 980 60 
980 -- 1.000 | 160 
1.000 |-- 1.020 | 280 
1.020 -- 1.040 | 260 
1.040 |-- 1.060 | 160 
1.060 -- 1.080 | 80 


(a) Qual a média da distribuição? 
(b) Qual a variância da distribuição? 
(c) Construa o histograma. 
(d) Queremos dividir os frangos em quatro categorias, em relação ao peso, de modo que: 
— os 20% mais leves sejam da categoria D; 
— os 30% seguintes sejam da categoria C; 
— os 30% seguintes sejam da categoria B; 
— os 20% seguintes (ou seja, os 20% mais pesados) sejam da categoria A. 
Quais os limites de peso entre as categorias A,B, Ce D? 
(e) O granjeiro decide separar desse lote os animais com peso inferior a dois desvios padrões abaixo da média para receberem 
ração reforçada, e também separar os animais com peso superior a um e meio desvio padrão acima da média para usá-los como 
reprodutores. 
Qual a porcentagem de animais que serão separados em cada caso? 
27. A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi baixa, da ordem de 22 anos. Como 
esse curso foi planejado para atender a todas as idades, decidiu-se fazer uma campanha de divulgação. Para se verificar se a 
campanha foi ou não eficiente, fez-se um levantamento da idade dos candidatos à última promoção, e os resultados estão na 
tabela a seguir. 


Idade | Frequência | Porcentagem 
18|-- 20 18 36 
20 p= 22 12 24 
22-26 10 20 
26-30 8 16 
30 -- 36 4 
Total 50 100 


(a) Baseando-se nesses resultados, você diria que a campanha produziu algum efeito (isto é, aumentou a idade média)? 


(b) Um outro pesquisador decidiu usar a seguinte regra: se a diferença x — 22 fosse maior que o valor 2dp(X y/ vn, então a 

campanha teria surtido efeito. Qual a conclusão dele, baseada nos dados? 

(c) Faça o histograma da distribuição. 
28. Para se estudar o desempenho de duas corretoras de ações, selecionou-se de cada uma delas amostras aleatórias das ações 
negociadas. Para cada ação selecionada, computou-se a porcentagem de lucro apresentada durante um período fixado de tempo. 
Os dados estão a seguir. 


Corretora A 
45 54 
62 70 
38 64 
55 55 
54 48 
65 60 


Corretora B 


57 58 
50 59 
59 56 
61 3 
57 0 
55 54 
59 56 


Que tipo de informação revelam esses dados? (Sugestão: use a análise proposta nas Seções 3.3 e 3.4.) 
29. Para verificar a homogeneidade das duas populações do problema anterior, um estatístico sugeriu que se usasse o quociente 


F = a , mas não disse qual decisão tomar baseado nesse valor. Que regra de decisão você adotaria para dizer se são 


homogêneas ou não (var(X/A) = variância de X, para a corretora A; X = % de lucro)? 
30. Faça um box plot para os dados da corretora A e um para os dados da corretora B. Compare os dois conjuntos de dados por 
meio desses desenhos. 
31. Para decidir se o desempenho das duas corretoras do exercício 29 são semelhantes ou não, adotou-se o seguinte teste: sejam 
e = s? Am, - Ivar(X/A) + (n, = 1)var(X/B) 

S.vl/n, + 1/n, n,t+n,-2 
Caso |t| < 2, os desempenhos são semelhantes, caso contrário, são diferentes. Qual seria a sua conclusão? Aqui, ny é o número de 
ações selecionadas da corretora A e nomenclatura análoga para np. 
32. Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação, por habitante, 
realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores (codificados) da tabela abaixo: 


Cidade AIB|CID|EJF|IG|H|L]|J 


Investimento | 20 | 16 | 14] 8 /19/15|14/16]19|18 


Nesse caso, será considerado como investimento básico a média final das observações, calculada da seguinte maneira: 

1. Obtém-se uma média inicial. 

2. Eliminam-se do conjunto aquelas observações que forem superiores à média inicial mais duas vezes o desvio padrão, ou 

inferiores à média inicial menos duas vezes o desvio padrão. 

3. Calcula-se a média final com o novo conjunto de observações. 
Qual o investimento básico que você daria como resposta? 

Observação. O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo investimento é muito 
diferente dos demais. 

33. Estudando-se a distribuição das idades dos funcionários de duas repartições públicas, obtiveram-se algumas medidas que 
estão no quadro abaixo. Esboce o histograma alisado das duas distribuições, indicando nele as medidas descritas no quadro. 
Comente as principais diferenças entre os dois histogramas. 


Repartição | Mínimo | 1º Quartil | Mediana | Média | 3º Quartil | Máximo | dp 
A 18 27 38 38 39 48 5 
B 18 23 32 33 42 48 10 


34. Decidiu-se investigar a distribuição dos profissionais com nível universitário em duas regiões, A e B. As informações 
pertinentes foram obtidas e encontram-se no quadro abaixo, expressas em salários mínimos. Esboce a distribuição (histograma 
alisado) dos salários de cada região, indicando no gráfico as medidas apresentadas no quadro. Faça também uma descrição rápida 
das principais diferenças observadas nos gráficos. 


35. Construa um box plot para os dados do Problema 6, do Capítulo 2. Obtenha conclusões a respeito da distribuição, a partir 
desse desenho. 


36. Usando os dados da variável qualitativa região de procedência, da Tabela 2.1, transforme-a na variável quantitativa X, 
definida do seguinte modo: 
a do se a regi, o de procedíncia for capital; 


0, se a regi,o de procedi ncia for mterior ou outra. 


(a) Calcule x e var(X). 
(b) Qual a interpretação de x? 
(c) Construa um histograma para X. 
37. No Problema 9, do Capítulo 2, temos os resultados de 25 funcionários em vários exames a que se submeteram. Sabe-se agora 
que os critérios adotados em cada exame não são comparáveis, por isso decidiu-se usar o desempenho relativo em cada exame. 
Essa medida será obtida do seguinte modo: 
(1) Para cada exame serão calculados a média x e o desvio padrão dp(X). 
(II) A nota X de cada aluno será padronizada do seguinte modo: 
X-x 
Z= TEIA 
(a) Interprete o significado de Z. 
(b) Calcule as notas padronizadas dos funcionários para o exame de Estatística. 
(c) Com os resultados obtidos em (b), calcule —z e dp(Z). 
(d) Se alguma das notas padronizadas estiver acima de 2dp(Z) ou abaixo de —2dp(Z), esse funcionário deve ser considerado um 
caso atípico. Existe algum nessa situação? 
(e) O funcionário 1 obteve 9,0 em Direito, em Estatística e em Política. Em que disciplina o seu desempenho relativo foi 
melhor? 
38. Calcule o desvio absoluto mediano para as populações do CD-Brasil. 
39. Calcule as principais medidas de posição e dispersão (incluindo a média aparada e o dam) para: 
(a) variável CO no CD-Poluição; 
(b) salários de mecânicos, CD-Salários; e 
(c) variável preço, CD-Veículos. 
40. Construa os histogramas, ramo-e-folhas e box plots para as variáveis do problema anterior. 
41. Faça um gráfico de quantis e um de simetria para os dados do Problema 3. Os dados são simétricos? Comente. 
42. Para o CD-Temperaturas e para a variável temperatura de Ubatuba, obtenha um gráfico de quantis e um gráfico de simetria. 
Os dados são simétricos? Comente. 
43. Use (3.21) para construir histogramas para: 
(a) variável umid (umidade) do CD-Poluição; 
(b) variável salário dos professores do CD-Salários; e 
(c) a temperatura de Cananeia, do CD-Temperaturas. 
44. Calcule A, dada por (3.22), para o Exemplo 3.5. Comente. 
45. Calcule A para o Exemplo 3.8. Comente. 


3.9 Complementos Metodológicos 


1. Quantis. Para calcular os quantis de uma sequência de valores de uma variável X poderíamos usar a função de distribuição 
acumulada ou empírica, definida no Problema 17 do Capítulo 2. Essa função fornece, para cada número real x, a proporção das 
observações menores ou iguais a x. No Exemplo 3.5, temos 


0, sex<2 

1/9, selsx<3 
2/9, se3sx<s5 
3/9, se5sx<7 
4/9, seTsx<8 
5/9, se8sx<Il0 
6/9, sel0sx<ll 
7/9, sellsx<l2 
8/9, sellsx<l5 
(1, se xz=15. 


(3.16) 


O gráfico de F,(x) está na Figura 3.18. Note que não há nenhum valor de x tal que F,(x) = 0,5 e Fo(2) = 1/9, FM3) = 2/9, ..., 


Fo(15) = 1, ou seja, podemos escrever de modo geral 


Flxo)= 5.1 =1,2,..,9. (3.17) 


Em particular, F (md) = F(xçs)) = Fo(8) = 5/9 = 0,556. Portanto, ou mudamos nossa definição de mediana, ou F,(.) não pode ser 


usada para definir precisamente mediana ou, em geral, um quantil q(p). 


Figura 3.18 Funções de distribuição empírica (F,) e f.d.e. alisada (“F,) para o Exemplo 3.5. 
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Mas vejamos que F (:) pode ser a base para tal definição. Considere “alisar” ou “suavizar” 
FX), como feito na Figura 3.18, de modo a obter uma curva contínua “F (x), que passa pelos 


pontos (x,y P;), em que 
i-0,5 
P; = 9 


pb = E vao: (3.18) 


Observe que O <p, < 1/9, 1/9 < p, < 2/9 etc. Com esse procedimento, notamos que 
E (Gy) = 1/18,..., (xo) = 9/18 = 0,5,...,Ê (19) = 17/18, 


ou seja, podemos escrever 


- i- 0. 
FX) is n 


, 


d=1,2..,m, (3.19) 


sendo que no nosso caso n = 9. Com essa modificação, obtemos que ;,(md) = 7,(8) = 0,5, e para cada 


; R a | R : 
p,0<p<1, podemos obter de modo unívoco o quantil q(p), tomando-se a função inversa 7, (p). Ou seja, considere uma reta 


horizontal passando por p no eixo das ordenadas, até encontrar a curva contínua e depois baixe uma reta vertical até encontrar 


a(p) no eixo das abscissas. 


Uma maneira equivalente de proceder nos leva à seguinte definição para calcular q(p), para 


qualquer p,0<p<1. 
Definição. O p-quantil é definido por 


EA , 


g(p) = ' a Say + Sa 


Xay» 


Hm) + 
(p-P). 


id que h E (Pia ne Pp) 


se 


se 


se 


se 


— 0,5 


i—0, 
“ho dei 


P<P<Pa 
PSP 
P > Pas 


E A Pv SOS à 


(3.20) 


Notamos, então, que se p coincidir com a proporção p, o quantil será a i-ésima observação, 
Xa Sep; <P <p; O quantil estará no segmento de reta que une (p,, X() € (P;.1» X+1)). De fato, a 
reta passando por (p;, x.) e (Pp, q(p)) é 


Xe) — My (p -p ). 


(D)-Xa = 
SP ada Pia Pi; 


Exemplo 3.5 (continuação) Usando a definição obtemos: 
q(0,1) = (0,6)xay + (0,4)x) = (0,6)(2) + (0,4)(3) = 2,4; 
q(0,2) = (0,7)x, + (0,3)x,3y = (0,7)(3) + (0,3)(5) = 3,6; 
q(0,25) = (0,25)xç, + 0,75xa = 4,5; 
q(0,5) = x.) = 8; 
q(0,75) = (0,75)x + (0,25)x,) = (0,75)(11) + (0,25)(12) = 11,25. 


2. Média aparada. Se O < a < 1, uma média aparada a 100% é obtida eliminando 100% das menores observações e 1000% das 
maiores observações e calculando-se a média aritmética das restantes. Por exemplo, se tivermos 10 observações ordenadas x,1) < 


X(2) < ++» <Xç10p à média aparada a 10% é 


Xe) + 3) + ct Xgy 


X(0,10) = F) 


Se O = 0,25, x (0,25) é chamada meia-média. 

Calcule a média aparada a 10% e 25% para os dados de salários da Tabela 2.1. 
3. Coeficiente de variação. Como vimos na Seção 3.3, o desvio padrão é bastante afetado pela magnitude dos dados, ou seja, ele 
não é uma medida resistente. Se quisermos comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de 
variação, que é definido como a razão entre o desvio padrão, S, e a média amostral e usualmente expresso em porcentagem: 


cv = 5 100%. 
x 


Calcule o coeficiente de variação para as regiões A e B e do Problema 35 e comente o resultado. 
4. Desvio absoluto mediano. Esta é uma medida de dispersão dos dados xy, ..., x, definida por: 


dam = med K, - med, .; < (Xp). 


I<j<n 

Ou seja, calculamos a mediana dos dados, depois os desvios absolutos dos dados em relação à mediana e, finalmente, a mediana 
desses desvios absolutos. Vamos considerar os dados abaixo, extraídos de Graedel e Kleiner (1985) e que representam 
velocidades do vento no aeroporto da Filadélfia (EUA) para os primeiros 15 dias de dezembro de 1974. Vemos que há uma 
observação muito diferente das demais (61,1), mas que representa um dado real: no dia 2 de dezembro houve uma 
tempestade forte com chuva e vento. 


Calculando-se as medidas de posição e dispersão estudadas, obtemos: 


X = 18,4, x(0,20) = 15,8; 
md=148,q,=8,3,q;= 21,8; 
d, = 14,8, dam = 7,4, dp(X) = 13,5. 


Observemos que, retirando-se o valor atípico 61,1, a média passa a ser 15,3 e o desvio padrão 6,8, valor este mais próximo do 
dam. 

5. O histograma dá uma ideia de como é a verdadeira densidade de frequências da população da qual os dados foram 
selecionados. Suponha que tenhamos o histograma da figura abaixo e que a curva suave seja a verdadeira densidade populacional 
desconhecida. 


Considere as distâncias entre o histograma e a densidade. Suponha que queiramos determinar a amplitude de classe A do 
histograma de modo a minimizar a maior distância (em valor absoluto). Freedman e Diaconis (1981) mostraram que o valor de A 
é dado aproximadamente por 


13 
PR 98( een) , 


em que “S é um estimador robusto do desvio padrão populacional. Por exemplo, podemos tomar 
d 


E q 
S=349” 


em que dg = q3 - qy é a distância interquartil, devido ao fato de, numa distribuição normal, dy = 1, 3490, sendo o o o desvio 
padrão. Segue-se que À é dado por 


Ki a(m) (3.21) 


Usando esse resultado, o número de classes a considerar num histograma é obtido por meio de (x E %y) : 
A 
6. Medida de assimetria. Pelas observações feitas para variáveis simétricas na Seção 3.3, podemos definir a medida 


Ms (g o &) ué (g, Es q). (3.22) 
G-h 


Se a distribuição for simétrica, o numerador de A é zero e, portanto, A = 0. 


Capítulo 4 


Análise Bidimensional 


4.1 Introdução 


Até agora vimos como organizar e resumir informações pertinentes a uma única variável (ou a 
um conjunto de dados), mas frequentemente estamos interessados em analisar o comportamento 
conjunto de duas ou mais variáveis aleatórias. Os dados aparecem na forma de uma matriz, 
usualmente com as colunas indicando as variáveis e as linhas os indivíduos (ou elementos). A 
Tabela 4.1 mostra a notação de uma matriz com p variáveis X,, X,, ..., X, e n indivíduos, 
totalizando np dados. A Tabela 2.1, com os dados hipotéticos da Companhia MB, é uma 
ilustração numérica de uma matriz 36 x 7. 

O principal objetivo das análises nessa situação é explorar relações (similaridades) entre as 
colunas, ou algumas vezes entre as linhas. Como no caso de apenas uma variável que estudamos, 
a distribuição conjunta das frequências será um instrumento poderoso para a compreensão do 
comportamento dos dados. 

Neste capítulo, iremos nos deter no caso de duas variáveis ou dois conjuntos de dados. Na 
Seção 4.8, daremos dois exemplos do caso de três variáveis. 


Tabela 4.1 Tabela de dados. 


Variável 


Indivíduo 


Em algumas situações, podemos ter dois (ou mais) conjuntos de dados provenientes da 
observação da mesma variável. Por exemplo, podemos ter um conjunto de dados (x,, ..., x,), que 
são as temperaturas na cidade A, durante n meses, e outro conjunto de dados (y,, ..., Y,), que são 
as temperaturas da cidade B, nos mesmos meses. Para efeito de análise, podemos considerar que 
o primeiro conjunto são observações da variável X: temperatura na cidade A, enquanto o 
segundo conjunto são observações da variável Y: temperatura na cidade B. Este é o caso do CD- 
Temperaturas. Também poderíamos usar uma variável X para indicar a temperatura e outra 
variável, L, para indicar se a observação pertence à região A ou B. Na Tabela 2.1, podemos estar 
interessados em comparar os salários dos casados e solteiros. Uma reordenação dos dados 


poderia colocar os casados nas primeiras posições e os solteiros nas últimas, e nosso objetivo 
passaria a ser comparar, na coluna de salários (variável S), o comportamento de S na parte 
superior com a inferior. A escolha da apresentação de um ou outro modo será ditada 
principalmente pelo interesse e técnicas de análise à disposição do pesquisador. 

No CD-Brasil, temos três variáveis: superfície, população e densidade populacional. No CD- 
Poluição, temos quatro variáveis: quantidade de monóxido de carbono, ozônio, temperatura do ar 
e umidade relativa do ar. 

Quando consideramos duas variáveis (ou dois conjuntos de dados), podemos ter três situações: 

(a) as duas variáveis são qualitativas; 

(b) as duas variáveis são quantitativas; e 

(c) uma variável é qualitativa e outra é quantitativa. 

As técnicas de análise de dados nas três situações são diferentes. Quando as variáveis são 
qualitativas, os dados são resumidos em tabelas de dupla entrada (ou de contingência), em que 
aparecerão as frequências absolutas ou contagens de indivíduos que pertencem simultaneamente 
a categorias de uma e outra variável. Quando as duas variáveis são quantitativas, as observações 
são provenientes de mensurações, e técnicas como gráficos de dispersão ou de quantis são 
apropriadas. Quando temos uma variável qualitativa e outra quantitativa, em geral, analisamos o 
que acontece com a variável quantitativa quando os dados são categorizados de acordo com os 
diversos atributos da variável qualitativa. Mas podemos ter também o caso de duas variáveis 
quantitativas agrupadas em classes. Por exemplo, podemos querer analisar a associação entre 
renda e consumo de certo número de famílias e, para isso, agrupamos as famílias em classes de 
rendas e classes de consumo. Desse modo, recaímos novamente numa tabela de dupla entrada. 

Contudo, em todas as situações, o objetivo é encontrar as possíveis relações ou associações 
entre as duas variáveis. Essas relações podem ser detectadas por meio de métodos gráficos e 
medidas numéricas. Para efeitos práticos (e a razão ficará mais clara após o estudo de 
probabilidades), iremos entender a existência de associação como a mudança de opinião sobre o 
comportamento de uma variável na presença ou não de informação sobre a segunda variável. 
Ilustrando: existe relação entre a altura de pessoas e o sexo (homem ou mulher) em dada 
comunidade? Pode-se fazer uma primeira pergunta: qual a frequência esperada de uma pessoa 
dessa população ter, digamos, mais de 170 cm de altura? E também uma segunda: qual a 
frequência esperada de uma mulher (ou homem) ter mais de 170 cm de altura? Se a resposta para 
as duas perguntas for a mesma, diríamos que não há associação entre as variáveis altura e sexo. 
Porém, se as respostas forem diferentes, isso significa uma provável associação, e devemos 
incorporar esse conhecimento para melhorar o entendimento sobre os comportamentos das 
variáveis. No exemplo em questão, você acha que existe associação entre as variáveis? 


4.2 Variáveis Qualitativas 
Para ilustrar o tipo de análise, consideremos o exemplo a seguir. 


Exemplo 4.1 Suponha que queiramos analisar o comportamento conjunto das variáveis Y: grau de 
instrução e V: região de procedência, cujas observações estão contidas na Tabela 2.1. A 
distribuição de frequências é representada por uma tabela de dupla entrada e está na Tabela 4.2. 
Cada elemento do corpo da tabela dá a frequência observada das realizações simultâneas de Y 
e V. Assim, observamos quatro indivíduos da capital com ensino fundamental, sete do interior 


com ensino médio etc. 

A linha dos totais fornece a distribuição da variável Y, ao passo que a coluna dos totais 
fornece a distribuição da variável V. As distribuições assim obtidas são chamadas tecnicamente 
de distribuições marginais, enquanto a Tabela 4.2 constitui a distribuição conjunta de Y e V. 


Tabela 4.2 Distribuição conjunta das frequências das variáveis grau de instrução (Y) e região de procedência (V). 


VI Ensino Fundamental Total 


Capital 1 
Interior 12 
Outra 13 


Total 36 


Fonte: Tabela 2.1. 


Em vez de trabalharmos com as frequências absolutas, podemos construir tabelas com as 
frequências relativas (proporções), como foi feito no caso unidimensional. Mas aqui existem três 
possibilidades de expressarmos a proporção de cada casela: 

(a) em relação ao total geral; 

(b) em relação ao total de cada linha; 

(c) ou em relação ao total de cada coluna. 

De acordo com o objetivo do problema em estudo, uma delas será a mais conveniente. 

A Tabela 4.3 apresenta a distribuição conjunta das frequências relativas, expressas como 
proporções do total geral. Podemos, então, afirmar que 11% dos empregados vêm da capital e 
têm o ensino fundamental. Os totais nas margens fornecem as distribuições unidimensionais de 
cada uma das variáveis. Por exemplo, 31% dos indivíduos vêm da capital, 33% do interior e 36% 
de outras regiões. Observe que, devido ao problema de aproximação das divisões, a distribuição 
das proporções introduz algumas diferenças não existentes. Compare, por exemplo, as colunas de 
instrução superior nas Tabelas 4.2 e 4.3. 

A Tabela 4.4 apresenta a distribuição das proporções em relação ao total das colunas. 
Podemos dizer que, entre os empregados com instrução até o ensino fundamental, 33% vêm da 
capital, ao passo que entre os empregados com ensino médio, 28% vêm da capital. Esse tipo de 
tabela serve para comparar a distribuição da procedência dos indivíduos conforme o grau de 
instrução. 


Tabela 4.3 Distribuição conjunta das proporções (em porcentagem) em relação ao total geral das variáveis Y e V definidas 


no texto. 


Capital 31% 
33% 
36% 


Interior 


Outra 
Total 33% 50% 17% 100% 


Fonte: Tabela 4.2. 


Tabela 4.4 Distribuição conjunta das proporções (em porcentagem) em relação aos totais de cada coluna das variáveis Y e 
V definidas no texto. 


31% 
33% 
36% 


Capital 
Interior 
Outra 

Total 100% 100% 100% | 100% 


Fonte: Tabela 4.2. 


De modo análogo, podemos construir a distribuição das proporções em relação ao total das 


linhas. Aconselhamos o leitor a construir essa tabela. 
A comparação entre as duas variáveis também pode ser feita utilizando-se representações 


gráficas. Na Figura 4.1, apresentamos uma possível representação para os dados da Tabela 4.4. 


Figura 4.1 Distribuição da região de procedência por grau de instrução. 


GRRRGRAIIIS 


1. Usando os dados da Tabela 2.1, Capítulo 2: 
(a) Construa a distribuição de frequência conjunta para as variáveis grau de instrução e região de procedência. 
(b) Qual a porcentagem de funcionários que têm o ensino médio? 
(c) Qual a porcentagem daqueles que têm o ensino médio e são do interior? 
(d) Dentre os funcionários do interior, quantos por cento têm o ensino médio? 
2. No problema anterior, sorteando um funcionário ao acaso entre os 36: 
(a) Qual será provavelmente o seu grau de instrução? 
(b) E sua região de procedência? 
(c) Qual a probabilidade do sorteado ter nível superior? 
(d) Sabendo que o sorteado é do interior, qual a probabilidade de ele possuir nível superior? 
(e) Sabendo que o escolhido é da capital, qual a probabilidade de ele possuir nível superior? 
3. Numa pesquisa sobre rotatividade de mão de obra, para uma amostra de 40 pessoas foram observadas duas variáveis: número 
de empregos nos últimos dois anos (X) e salário mais recente, em número de salários mínimos (Y). Os resultados foram: 


Indivíduo | X | Y Indivíduo | X | Y 
ih 116 21 2| 4 
2 3: | 22 3 | 2 
e 2|4 23 4/1 
4 2 | É 24 1º|:5 
5 2 | 4 25 2]4 
6 | lt 26 3: || 2 
4 3.13 27 411 
8 1]5 28 1 ]5 
9 2 IA 29 4|4 

10 32 30 3/3 
1 2] 5 edil 2.| 2 
12 Ba 32 4] 
13 116 33 4/1 
14 216 34 216 
15 8.2 35 4|2 
16 4|2 36 3] d 
17 1]5 E á 1|]4 
18 2 | 5 38 3 | 2 
19 211 39 2/3 
20 Bt 40 2:59 


(a) Usando a mediana, classifique os indivíduos em dois níveis, alto e baixo, para cada uma das variáveis, e construa a 
distribuição de frequências conjunta das duas classificações. 

(b) Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco? 

(c) Qual a porcentagem das pessoas que ganham pouco? 

(d) Entre as pessoas com baixa rotatividade, qual a porcentagem das que ganham pouco? 

(e) A informação adicional dada em (d) mudou muito a porcentagem observada em (c)? O que isso significa? 


4.3 Associação entre Variáveis Qualitativas 


Um dos principais objetivos de se construir uma distribuição conjunta de duas variáveis 
qualitativas é descrever a associação entre elas, isto é, queremos conhecer o grau de dependência 
entre elas, de modo que possamos prever melhor o resultado de uma delas quando conhecermos 
a realização da outra. 

Por exemplo, se quisermos estimar qual a renda média de uma família moradora da cidade de 
São Paulo, a informação adicional sobre a classe social a que ela pertence nos permite estimar 
com maior precisão essa renda, pois sabemos que existe uma dependência entre as duas 
variáveis: renda familiar e classe social. Ou, ainda, suponhamos que uma pessoa seja sorteada ao 
acaso na população da cidade de São Paulo e devamos adivinhar o sexo dessa pessoa. Como a 
proporção de pessoas de cada sexo é aproximadamente a mesma, o resultado desse exercício de 
adivinhação poderia ser qualquer um dos sexos: masculino ou feminino. Mas se a mesma 
pergunta fosse feita e também fosse dito que a pessoa sorteada trabalha na indústria siderúrgica, 
então nossa resposta mais provável seria que a pessoa sorteada é do sexo masculino. Ou seja, há 
um grau de dependência grande entre as variáveis sexo e ramo de atividade. 

Vejamos como podemos identificar a associação entre duas variáveis da distribuição conjunta. 


Exemplo 4.2 Queremos verificar se existe ou não associação entre o sexo e a carreira escolhida por 
200 alunos de Economia e Administração. Esses dados estão na Tabela 4.5. 


Tabela 4.5 Distribuição conjunta de alunos segundo o sexo (X) e o curso escolhido (Y). 


YX Masculino | Feminino | Total 
Economia 85 85 120 
Administração 55 25 80 
Total 140 60 200 


Fonte: Dados hipotéticos. 


Inicialmente, verificamos que fica muito difícil tirar alguma conclusão, devido à diferença 
entre os totais marginais. Devemos, pois, construir as proporções segundo as linhas ou as colunas 


para podermos fazer comparações. Fixemos os totais das colunas; a distribuição está na Tabela 
4.6. 


Tabela 4.6 Distribuição conjunta das proporções (em porcentagem) de alunos segundo o sexo (X) e o curso escolhido (Y). 


Economia 60% 
40% 
100% 


Administração 


Total 


Fonte: Tabela 4.5. 


A partir dessa tabela podemos observar que, independentemente do sexo, 60% das pessoas 
preferem Economia e 40% preferem Administração (observe na coluna de total). Não havendo 
dependência entre as variáveis, esperaríamos essas mesmas proporções para cada sexo. 
Observando a tabela, vemos que as proporções do sexo masculino (61% e 39%) e do sexo 
feminino (58% e 42%) são próximas das marginais (60% e 40%). Esses resultados parecem 
indicar não haver dependência entre as duas variáveis, para o conjunto de alunos considerado. 
Concluímos então que, neste caso, as variáveis sexo e escolha do curso parecem ser não 
associadas. 

Vamos considerar, agora, um problema semelhante, mas envolvendo alunos de Física e 
Ciências Sociais, cuja distribuição conjunta está na Tabela 4.7. 


Tabela 4.7 Distribuição conjunta das frequências e proporções (em porcentagem), segundo o sexo (X) e o curso escolhido 


(1). 


Física 100 (71%) | 20 (33%) | 120 (60%) 
Ciências Sociais | 40 (29%) | 40(67%) | 80 (40%) 
Total 140 (100%) | 60 (100%) | 200 (100%) 


Fonte: Dados hipotéticos. 


Inicialmente, convém observar que, para economizar espaço, resumimos duas tabelas numa 
única, indicando as proporções em relação aos totais das colunas entre parênteses. Comparando 
agora a distribuição das proporções pelos cursos, independentemente do sexo (coluna de totais), 
com as distribuições diferenciadas por sexo (colunas de masculino e feminino), observamos uma 
disparidade bem acentuada nas proporções. Parece, pois, haver maior concentração de homens 
no curso de Física e de mulheres no de Ciências Sociais. Portanto, nesse caso, as variáveis sexo e 
curso escolhido parecem ser associadas. 


Quando existe associação entre variáveis, sempre é interessante quantificar essa associação, e 
isso será objeto da próxima seção. Antes de passarmos a discutir esse aspecto, convém observar 
que teríamos obtido as mesmas conclusões do Exemplo 4.2 se tivéssemos calculado as 
proporções, mantendo constantes os totais das linhas. 


4. Usando os dados do Problema 1, responda: 
(a) Qual a distribuição das proporções do grau de educação segundo cada uma das regiões de procedência? 
(b) Baseado no resultado anterior e no Problema 2, você diria que existe dependência entre a região de procedência e o nível de 
educação do funcionário? 
5. Usando o Problema 3, verifique se há relações entre as variáveis rotatividade e salário. 
6. Uma companhia de seguros analisou a frequência com que 2.000 segurados (1.000 homens e 1.000 mulheres) usaram o 
hospital. Os resultados foram: 


Homens | Mulheres 


Usaram o hospital 100 150 


Não usaram o hospital 900 850 


(a) Calcule a proporção de homens entre os indivíduos que usaram o hospital. 
(b) Calcule a proporção de homens entre os indivíduos que não usaram o hospital. 
(c) O uso do hospital independe do sexo do segurado? 


4.4 Medidas de Associação entre Variáveis Qualitativas 


De modo geral, a quantificação do grau de associação entre duas variáveis é feita pelos 
chamados coeficientes de associação ou correlação. Essas são medidas que descrevem, por meio 
de um único número, a associação (ou dependência) entre duas variáveis. Para facilitar a 
compreensão, esses coeficientes usualmente variam entre O e 1, ou entre -1 e +1, e a proximidade 
de zero indica falta de associação. 

Existem muitas medidas que quantificam a associação entre variáveis qualitativas, 
apresentaremos apenas duas delas: o chamado coeficiente de contingência, devido a K. Pearson e 
uma modificação desse. 


Exemplo 4.3 Queremos verificar se a criação de determinado tipo de cooperativa está associada 
com algum fator regional. Coletados os dados relevantes, obtemos a Tabela 4.8. 


Tabela 4.8 Cooperativas autorizadas a funcionar por tipo e estado, junho de 1974. 


Tipo de Cooperativa 
Estado Total 
Consumidor | Produtor Escola Outras 


São Paulo | 214(33%) | 237 (37%) | 78 (12%) | 119 (18%) | 648 (100%) 


Paraná 51 (17%) | 102 (34%) | 126 (42%) | 22(7%) | 301 (100%) 
Rio G. do Sul | 111 (18%) | 304 (51%) | 139 (23%) | 48 (8%) | 602 (100%) 
Total 376 (24%) | 643 (42%) | 343 (22%) | 189 (12%) | 1.551 (100%) 


Fonte: Sinopse Estatística da Brasil — IBGE, 1977. 


A análise da tabela mostra a existência de certa dependência entre as variáveis. Caso não 
houvesse associação, esperaríamos que em cada estado tivéssemos 24% de cooperativas de 
consumidores, 42% de cooperativas de produtores, 22% de escolas e 12% de outros tipos. Então, 


por exemplo, o número esperado de cooperativas de consumidores no Estado de São Paulo seria 
648 x 0,24 = 157 e no Paraná seria 301 x 0,24 = 73 (ver Tabela 4.9). 


Tabela 4.9 Valores esperados na Tabela 4.8 assumindo a independência entre as duas variáveis. 


Tipo de Cooperativa 
Estado Total 
Consumidor | Produtor Escola Outras 


São Paulo | 157(24%) | 269 (42%) | 143 (22%) | 79 (12%) | 648 (100%) 


Paraná 73 (24%) | 124 (42%) | 67(22%) | 37 (12%) | 301 (100%) 
Rio G. do Sul | 146 (24%) | 250 (42%) | 133 (22%) | 73 (12%) | 602 (100%) 
Total 376 (24%) | 643 (42%) | 343 (22%) | 189 (12%) | 1.551 (100%) 


Fonte: Tabela 4.8. 


Tabela 4.10 Desvios entre observados e esperados. 


Tipo de Cooperativa 


Estado 


São Paulo | 57(20,69) | -32 (3,81) | -65 (29,55) | 40 (20,25) 
Paraná -22 (6,63) | -22 (3,90) | 59 (51,96) | -15 (6,08) 
Rio G. do Sul | -35(8,39) | 54(11,66) | 6(0,27) |-25(8,56) 


Fonte: Tabelas 4.8 e 4.9. 


Comparando as duas tabelas, podemos verificar as discrepâncias existentes entre os valores 
observados (Tabela 4.8) e os valores esperados (Tabela 4.9), caso as variáveis não fossem 
associadas. Na Tabela 4.10 resumimos os desvios: valores observados menos valores esperados. 
Observando essa tabela podemos tirar algumas conclusões: 

(i) A soma total dos resíduos é nula. Isso pode ser verificado facilmente somando-se cada 

linha. 

(ii) A casela Escola-São Paulo é aquela que apresenta o maior desvio da suposição de não- 
associação (-65). Nessa casela esperávamos 143 casos. A casela Escola-Paraná também tem 
um desvio alto (59), mas o valor esperado é bem menor (67). Portanto, se fôssemos 
considerar os desvios relativos, aquele correspondente ao segundo caso seria bem maior. 
Uma maneira de observar esse fato é construir, para cada casela, a medida 


Q-SÊ (4,1) 


no qual o, é o valor observado e e, é o valor esperado. 


Usando (4.1) para a casela Escola-São Paulo obtemos (-65)2/143 = 29,55 e para a casela 
Escola-Paraná obtemos (59)?/67 = 51,96, o que é uma indicação de que o desvio devido a essa 
última casela é “maior” do que aquele da primeira. Na Tabela 4.10, indicamos entre parênteses 
esses valores para todas as caselas. 

Uma medida do afastamento global pode ser dada pela soma de todas as medidas (4.1). Essa 
medida é denominada x? (qui-quadrado) de Pearson, e no nosso exemplo teríamos 

x? = 20,69 + 6,63 +... + 8,56 = 171,76. 
Um valor grande de x? indica associação entre as variáveis, o que parece ser o caso. 


Antes de dar uma fórmula geral para essa medida de associação, vamos introduzir, na Tabela 
4.11, uma notação geral para tabelas de dupla entrada. 


Tabela 4.11 Notação para tabelas de contingência. 


XY | B, | B B; B, | Total 
A, Na | Mo ny; Mç| mM 
A, Na | No No; Nos | Mo, 
ó ó ólóló ló] ó ó 
A, Nip | Tp Nj Ne n, 
ó ó ólóló ló] ó ó 


Suponha que temos duas variáveis qualitativas X e Y, classificadas em r categorias 4, 4,, ... 
A, para X es categorias B,, B,, ..., B, para Y. 


Na tabela, temos: 

n; = número de elementos pertencentes à i-ésima categoria de X e j-ésima categoria de Y; 
"= > "ty = número de elementos da i-ésima categoria de X; 

n,= > ny, = número de elementos da j-ésima categoria de Y; 

n=n=>.>".n, = número total de elementos. 


std Ls jo 


Sob a hipótese de que as variáveis X e Y não sejam associadas (comumente dizemos 
independentes), temos que 


ou ainda 


de onde se deduz, finalmente, que 


LS j=) rj=1, us. (4.3) 


Portanto, sob a hipótese de independência, de (4.3) segue que, em termos de frequências 
relativas, podemos escrever f, = f,f;. 


Chamando de frequências esperadas os valores dados pelos segundos membros de (4.3), e 
denotando-as por n”,, temos que o qui-quadrado de Pearson pode ser escrito 


“da ng P 
A (4.4) 


em que n, são os valores efetivamente observados. Se a hipótese de não associação for 


verdadeira, o valor calculado de (4.4) deve estar próximo de zero. Se as variáveis forem 
associadas, o valor de x? deve ser grande. 


Podemos escrever a fórmula (4.4) em termos de frequências relativas, como 


para a qual as notações são similares. 

Para fazer comparações, seria útil ter uma medida que varie num intervalo limitado, como 
(0,1), por exemplo, zero indicando independência e um, dependência completa. 

Pearson definiu uma medida de associação, baseada em (4.4), chamada coeficiente de 


contingência, dada por 
depende deres. C= For (4.5) 


Contudo, esse coeficiente pode não atingir o valor máximo igual um, no caso de dependência 
completa e o valor máximo depende r e s. Pode-se demonstrar que, quando r = s, o valor máximo 


de Cé J(-D/r. 


Um coeficiente, sugerido por Tschuprov, pode atingir o máximo igual a 1, ser =s. Este é dado 


por 
y é 
T= |[———>———-. (4.6 
rj ( ) 


Outra medida de associação foi proposta por Cramér, dada por 


V= Es. (4.7) 
onde q = min (r, s). 


Para o Exemplo 4.3, temos que C=0,32,T=0,21eV=0, 24. Voltaremos a falar do uso do 
x) no Capítulo 14. 

Vejamos um exemplo em que há dependência completa e deveremos obter T = 1. Suponha X = 
Yer=s=2, com n observações distribuídas segundo a tabela abaixo: 


É fácil ver que todos os valores esperados são iguais a n/4 e o valor calculado do qui-quadrado 
será x = n, do que resulta T = 1. 


Para outros exemplos, veja os Problemas 39 e 40. 


Problemas 


7. Usando os dados do Problema 1, calcule o valor de XY e o coeficiente de contingência C. Esses valores estão de acordo com as 
conclusões obtidas anteriormente? 

8. Qual o valor de X e de C para os dados do Problema 3? E para o Problema 6? Calcule T. 

9. A Companhia A de dedetização afirma que o processo por ela utilizado garante um efeito mais prolongado do que aquele 
obtido por seus concorrentes mais diretos. Uma amostra de vários ambientes dedetizados foi colhida e anotou-se a duração 
do efeito de dedetização. Os resultados estão na tabela abaixo. Você acha que existe alguma evidência a favor ou contra a 
afirmação feita pela Companhia A? 


Duração do efeito de dedetização 


Companhia Mais de 8 meses 
A 64 120 16 
B 104 175 21 
& 27 48 E) 


4.5 Associação entre Variáveis Quantitativas 


Quando as variáveis envolvidas são ambas do tipo quantitativo, pode-se usar o mesmo tipo de 
análise apresentado nas seções anteriores e exemplificado com variáveis qualitativas. De modo 
análogo, a distribuição conjunta pode ser resumida em tabelas de dupla entrada e, por meio das 
distribuições marginais, é possível estudar a associação das variáveis. Algumas vezes, para evitar 
um grande número de entradas, agrupamos os dados marginais em intervalos de classes, de modo 
semelhante ao resumo feito no caso unidimensional. Mas, além desse tipo de análise, as variáveis 
quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados. 

Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas, 
ou entre dois conjuntos de dados, é o gráfico de dispersão, que vamos introduzir por meio de 
exemplos. 


Exemplo 4.4 Na Figura 4.2, temos o gráfico de dispersão das variáveis X e Y da Tabela 4.12. Nesse 
tipo de gráfico, temos os possíveis pares de valores (x, y), na ordem que aparecem. Para o 
exemplo, vemos que parece haver uma associação entre as variáveis, porque no conjunto, a 
medida que aumenta o tempo de serviço, aumenta o número de clientes. 


Tabela 4.12 Número de anos de serviço (X) por número de clientes (Y) de agentes de uma companhia de seguros. 


Agente | Anos de serviço (X) | Número de clientes (Y) 
A 2 48 
B 3 50 
E 4 56 
D 5 52 
E 4 43 
F 6 60 
G gi 62 
H 8 58 
I 8 64 
J 10 e 


Fonte: Dados hipotéticos. 


Figura 4.2 Gráfico de dispersão para as variáveis X: anos de serviço e Y: número de clientes. 
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Exemplo 4.5 Consideremos os dados das variáveis X: população urbana e Y: população rural, no 
Brasil, em 1996. O gráfico de dispersão está na Figura 4.3. Vemos que parece não haver 
associação entre as variáveis, pois os pontos não apresentam nenhuma tendência particular. 


Figura 4.3 Gráfico de dispersão para as variáveis X: população urbana e Y: população rural. 
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Exemplo 4.6 Consideremos agora as duas situações abaixo e os respectivos gráficos de dispersão. 


(a) Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salários 
mínimos, mediram-se: 

X: renda bruta mensal (expressa em número de salários mínimos). 

Y: a porcentagem da renda bruta anual gasta com assistência médica; os dados estão na Tabela 
4.13. Observando o gráfico de dispersão (Figura 4.4), vemos que existe uma associação 
“inversa”, isto é, aumentando a renda bruta, diminui a porcentagem sobre ela gasta em 
assistência médica. 

Antes de passarmos ao exemplo seguinte, convém observar que a disposição dos dados da 
Tabela 4.13 numa tabela de dupla entrada não iria melhorar a compreensão dos dados, visto 
que, devido ao pequeno número de observações, teríamos caselas cheias apenas na 
diagonal. 


Tabela 4.13 Renda bruta mensal (X) e porcentagem da renda gasta em saúde (Y) para um conjunto de famílias. 
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Fonte: Dados hipotéticos. 


Figura 4.4 Gráfico de dispersão para as variáveis X: renda bruta e Y: % renda gasta com saúde. 
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(b) Oito indivíduos foram submetidos a um teste sobre conhecimento de língua estrangeira e, 
em seguida, mediu-se o tempo gasto para cada um aprender a operar uma determinada 
máquina. As variáveis medidas foram: 

X: resultado obtido no teste (máximo = 100 pontos); 

Y: tempo, em minutos, necessário para operar a máquina satisfatoriamente. 

Os dados estão na Tabela 4.14. Do gráfico de dispersão (Figura 4.5) concluímos que parece 

não haver associação entre as duas variáveis, pois conhecer o resultado do teste não ajuda a 
prever o tempo gasto para aprender a operar a máquina. 


Tabela 4.14 Resultado de um teste (X) e tempo de operação de máquina (Y) para oito indivíduos. 


Indivíduo 
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Fonte: Dados hipotéticos. 


Figura 4.5 Gráfico de dispersão para as variáveis X: resultado no teste e Y: tempo de operação. 
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A partir dos gráficos apresentados, verificamos que a representação gráfica das variáveis 
quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à 
existência ou não de associação entre elas. 

Contudo, é muito útil quantificar esta associação. Existem muitos tipos de associações 
possíveis, e aqui iremos apresentar o tipo de relação mais simples, que é a linear. Isto é, iremos 
definir uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão aproxima-se 
de uma reta. Esta medida será definida de modo a variar num intervalo finito, especificamente, 
de-1a+1. 

Consideremos um gráfico de dispersão como o da Figura 4.6 (a) no qual, por meio de uma 
transformação conveniente, a origem foi colocada no centro da nuvem de dispersão. Aqueles 
dados possuem uma associação linear direta (ou positiva) e notamos que a grande maioria dos 
pontos está situada no primeiro e terceiro quadrantes. Nesses quadrantes as coordenadas dos 
pontos têm o mesmo sinal, e, portanto, o produto delas será sempre positivo. Somando-se o 
produto das coordenadas dos pontos, o resultado será um número positivo, pois existem mais 
produtos positivos do que negativos. 


Figura 4.6 Tipos de associações entre duas variáveis. 


Pag º o 
. 
“0 00, E DA) E 
e “ca ..* 
clio “o 
eos | e. 
. | 


(a) (b) (c) 


Para a dispersão da Figura 4.6 (b), observamos uma dependência linear inversa (ou negativa) 
e, procedendo-se como anteriormente, a soma dos produtos das coordenadas será negativa. 

Finalmente, para a Figura 4.6 (c), a soma dos produtos das coordenadas será zero, pois cada 
resultado positivo tem um resultado negativo simétrico, anulando-se na soma. Nesse caso, não há 
associação linear entre as duas variáveis. Em casos semelhantes, quando a distribuição dos 
pontos for mais ou menos circular, a soma dos produtos será aproximadamente zero. 

Baseando-se nesses fatos é que iremos definir o coeficiente de correlação (linear) entre duas 
variáveis, que é uma medida do grau de associação entre elas e também da proximidade dos 
dados a uma reta. Antes, cabe uma observação. A soma dos produtos das coordenadas depende, e 
muito, do número de pontos. Considere o caso de associação positiva: a soma acima tende a 
aumentar com o número de pares (x, y) e ficaria difícil comparar essa medida para dois conjuntos 
com números diferentes de pontos. Por isso, costuma-se usar a média da soma dos produtos das 
coordenadas. 


Exemplo 4.7 Voltemos aos dados da Tabela 4.12. O primeiro problema que devemos resolver é o da 
mudança da origem do sistema para o centro da nuvem de dispersão. Um ponto conveniente é (x, 
y), ou seja, as coordenadas da origem serão as médias dos valores de X e Y. As novas 
coordenadas estão mostradas na quarta e quinta colunas da Tabela 4.15. 

Observando esses valores centrados, verificamos que ainda existe um problema quanto à 
escala usada. A variável Y tem variabilidade muito maior do que X, e o produto ficaria muito 
mais afetado pelos resultados de Y do que pelos de X. Para corrigirmos isso, podemos reduzir as 
duas variáveis a uma mesma escala, dividindo-se os desvios pelos respectivos desvios padrões. 
Esses novos valores estão nas colunas 6 e 7. Observe as mudanças (escalas dos eixos) de 
variáveis realizadas, acompanhando a Figura 4.7. Finalmente, na coluna 8, indicamos os 
produtos das coordenadas reduzidas e sua soma, 8,769, que, como esperávamos, é positiva. Para 
completar a definição dessa medida de associação, basta calcular a média dos produtos das 
coordenadas reduzidas, isto é, correlação (X,Y) = 8,769/10 = 0,877. 


Tabela 4.15 Cálculo do coeficiente de correlação. 


Agente Clientes 

y 
A 2 48 
B 3 50 
E 4 56 
D 5) 52 
E 4 43 
F 6 60 
G 7 62 
H 8 58 
I 8 64 
J 10 72 

Total rá 565 0 0 8,769 


x= 5,7, dp(X) — 2,41, y — 56,5, dp(Y) — 8,11 
Portanto, para esse exemplo, o grau de associação linear está quantificado por 87,7%. 


Figura 4.7 Mudança de escalas para o cálculo do coeficiente de correlação. 
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Da discussão feita até aqui, podemos definir o coeficiente de correlação do seguinte modo. 
Definição. Dados n pares de valores (x,, y,), (x, >), -..» (x, Y,), chamaremos de coeficiente de 
correlação entre as duas variáveis X eY a 


Il&(lx-x)y-y 
DE (ER E ES | Dé di À 
corr(X, Y) =p E- o, dor) ) (4.7) 


ou seja, a média dos produtos dos valores padronizados das variáveis. 


Não é difícil provar que o coeficiente de correlação satisfaz 
—1 <corr(X,Y)<1. (4.8) 


A definição acima pode ser operacionalizada de modo mais conveniente pelas seguintes 
fórmulas: 


corr(X, Y) = SF mia 2] E, Dx = nE 7 (4.9) 


nl doOO | dp) | (52 = ne [(5 8 = 057) 


O numerador da expressão acima, que mede o total da concentração dos pontos pelos quatro 
quadrantes, dá origem a uma medida bastante usada e que definimos a seguir. 


Definição. Dados n pares de valores (x,, y,), ... (X,, Y,), chamaremos de covariância entre as duas 
variáveisXeYa 


cov(X,Y) = Zum; É E (4.10) 


ou seja, a média dos produtos dos valores centrados das variáveis. 
Com essa definição, o coeficiente de correlação pode ser escrito como 


cov(X,)Y) : (4.11) 


corr(X,Y) = 
dy(X)- dp(Y) 


Para analisar dois conjuntos de dados podemos recorrer, também, aos métodos utilizados 
anteriormente para analisar um conjunto de dados, exibindo as análises feitas separadamente, 
para efeito de comparação. Por exemplo, podemos exibir os desenhos esquemáticos, ou os 
ramos-e-folhas para os dois conjuntos de observações. 


4.6 Associação entre Variáveis Qualitativas e Quantitativas 


Como mencionado na introdução deste capítulo, é comum nessas situações analisar o que 
acontece com a variável quantitativa dentro de cada categoria da variável qualitativa. Essa 
análise pode ser conduzida por meio de medidas-resumo, histogramas, box plots ou ramo-e- 
folhas. Vamos ilustrar com um exemplo. 


Exemplo 4.8 Retomemos os dados da Tabela 2.1, para os quais desejamos analisar agora o 
comportamento dos salários dentro de cada categoria de grau de instrução, ou seja, investigar o 
comportamento conjunto das variáveis S e Y. 


Tabela 4.16 Medidas-resumo para a variável salário, segundo o grau de instrução, na Companhia MB. 


Grau de instrução |n | -s | dp(S) | var(S) | Sy | | &% | & | SC) 


Fundamental 1217,84| 2,79 | 7,77 |4,00 |6,01 |7,13|9,16 /13,65 


Médio 18/11,54] 3,62 | 13,10 |5,73 | 8,84 [10,91/14,48]19,40 
Superior 6 [16,48] 4,11 | 16,89 [10,53/13,65/16,74/18,38/23,30 
Todos 36[11,12] 4,52 | 20,46 | 4,00 | 7,55 |[10,17/14,06/23,30 


Comecemos a análise construindo a Tabela 4.16, que contém medidas-resumo da variável S 
para cada categoria de Y. A seguir, na Figura 4.8, apresentamos uma visualização gráfica por 
meio de box plots. 


Figura 4.8 Box plots de salário segundo grau de instrução. SPlus. 
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A leitura desses resultados sugere uma dependência dos salários em relação ao grau de 
instrução: o salário aumenta conforme aumenta o nível de educação do indivíduo. O salário 
médio de um funcionário é 11,12 (salários mínimos), já para um funcionário com curso superior 
o salário médio passa a ser 16,48, enquanto funcionários com o ensino fundamental completo 
recebem, em média, 7,84. 

Na Tabela 4.17 e na Figura 4.9, temos os resultados da análise dos salários em função da 
região de procedência (V), que mostram a inexistência de uma relação melhor definida entre 
essas duas variáveis. Ou, ainda, os salários estão mais relacionados com o grau de instrução do 
que com a região de procedência. 


Tabela 4.17 Medidas-resumo para a variável salário segundo a região de procedência, na Companhia MB. 


Capital 19,40 
Interior 23,30 
Outra 16,22 
Todos 36 | 11,12 | 4,52 | 20,46 | 4,00 | 7,55 | 10,17 | 14,06 | 23,30 
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Como nos casos anteriores, é conveniente poder contar com uma medida que quantifique o 
grau de dependência entre as variáveis. Com esse intuito, convém observar que as variâncias 
podem ser usadas como insumos para construir essa medida. Sem usar a informação da variável 
categorizada, a variância calculada para a variável quantitativa para todos os dados mede a 
dispersão dos dados globalmente. Se a variância dentro de cada categoria for pequena e menor 
do que a global, significa que a variável qualitativa melhora a capacidade de previsão da 
quantitativa e portanto existe uma relação entre as duas variáveis. 


Observe que, para as variáveis S e Y, as variâncias de S dentro das três categorias são menores 
do que a global. Já para as variáveis S e V, temos duas variâncias de S maiores e uma menor do 
que a global, o que corrobora a afirmação acima. 

Necessita-se, então, de uma medida-resumo da variância entre as categorias da variável 
qualitativa. Vamos usar a média das variâncias, porém ponderada pelo número de observações 
em cada categoria, ou seja, 


5a n var,(S) 
k 


= 1 


var(S) = (4.12) 
no qual k é o número de categorias (k = 3 nos dois exemplos acima) e var(S) denota a variância 
de S dentro da categoria i, i= 1,2, ..., k. 

Pode-se mostrar que var(S) " var(S), de modo que podemos definir o grau de associação entre as 
duas variáveis como o ganho relativo na variância, obtido pela introdução da variável qualitativa. 
Explicitamente, 


pé = SUS) Var(S) |, variS) (4 13) 


var(S) var(S) 


Note que 0< R?<1. O símbolo Rº é usual em análise de variância e regressão, tópicos a serem 
abordados nos Capítulos 15 e 16, respectivamente. 


Exemplo 4.9 Voltando aos dados do Exemplo 4.8, vemos que para a variável S na presença de grau 
de instrução, tem-se 


12(7,77) + 18(13,10) + 6(16,89) 
12+18+6 
var(S) = 20,46, 


var(S) = = 11,96, 


de modo que 


e dizemos que 41,5% da variação total do salário é explicada pela variável grau de instrução. 
Para S e região de procedência temos 
var(s) = 127,27) + 12425, 70 + 130,13) À oo 39, 
11+12+13 
e, portanto, 


R =1- 20,20 


= 0,013, 


de modo que apenas 1,3% da variabilidade dos salários é explicada pela região de procedência. 
A comparação desses dois números mostra maior relação entre S e Y do que entre S e V. 


10. Para cada par de variáveis abaixo, esboce o diagrama de dispersão. Diga se você espera uma dependência linear e nos casos 
afirmativos avalie o coeficiente de correlação. 

(a) Peso e altura dos alunos do primeiro ano de um curso de Administração. 

(b) Peso e altura dos funcionários de um escritório. 

(c) Quantidade de trigo produzida e quantidade de água recebida por canteiros numa estação experimental. 

(d) Notas de Cálculo e Estatística de uma classe onde as duas disciplinas são lecionadas. 

(e) Acuidade visual e idade de um grupo de pessoas. 

(f) Renda familiar e porcentagem dela gasta em alimentação. 


(9) Número de peças montadas e resultado de um teste de inglês por operário. 
11. Abaixo estão os dados referentes à porcentagem da população economicamente ativa empregada no setor primário e o 
respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras. 


Regiões metropolitanas | Setor primário | Índice de analfabetismo 
São Paulo 2,0 175 
Rio de Janeiro 2,5 18,5 
Belém 2,9 19,5 
Belo Horizonte 3,3 22,2 
Salvador 41 26,5 
Porto Alegre 4,3 16,6 
Recife 7,0 36,6 
Fortaleza 13,00 38,4 


Fonte: Indicadores Sociais para Áreas Urbanas — IBGE — 1977. 


(a) Faça o diagrama de dispersão. 

(b) Você acha que existe uma dependência linear entre as duas variáveis? 

(c) Calcule o coeficiente de correlação. 

(d) Existe alguma região com comportamento diferente das demais? Se existe, elimine o valor correspondente e recalcule o 

coeficiente de correlação. 
12. Usando os dados do Problema 3: 

(a) Construa a tabela de frequências conjuntas para as variáveis X (número de empregos nos dois últimos anos) e Y (salário 

mais recente). 

(b) Como poderia ser feito o gráfico de dispersão desses dados? 

(c) Calcule o coeficiente de correlação. Baseado nesse número você diria que existe dependência entre as duas variáveis? 
13. Quer se verificar a relação entre o tempo de reação e o número de alternativas apresentadas a indivíduos acostumados a 
tomadas de decisão. Planejou-se um experimento em que se pedia ao participante para classificar objetos segundo um critério 
previamente discutido. Participaram do experimento 15 executivos divididos aleatoriamente em grupos de cinco. Pediu-se, então, 
a cada grupo para classificar dois, três e quatro objetos, respectivamente. Os dados estão abaixo. 


Nº de objetos 2 3 4 
Tempo de reação | 1,2,3,3,4 | 2,3,4,4,5 | 4,5,5,6,7 


(a) Faça o gráfico de dispersão das duas variáveis. 
(b) Qual o coeficiente de correlação entre elas? 
14. Calcule o grau de associação entre as variáveis estado civil e idade, na Tabela 2.1. 
15. Usando os dados do Problema 9 do Capítulo 2, calcule o grau de associação entre seção e notas em Estatística. 


4.7 Gráficos q X q 


Outro tipo de representação gráfica que podemos utilizar para duas variáveis é o gráfico 
quantis x quantis, que passamos a discutir. 

Suponha que temos valores x,, ..., x, da variável X e valores y,, .... Ym da variável Y, todos 
medidos pela mesma unidade. Por exemplo, temos temperaturas de duas cidades ou alturas de 
dois grupos de indivíduos etc. O gráfico q x q é um gráfico dos quantis de X contra os quantis de 
Y. 

Pelo que vimos no Capítulo 3, sem =n o gráfico q x q é um gráfico dos dados ordenados de X 
contra os dados ordenados de Y. Se as distribuições dos dois conjuntos de dados fossem 
idênticas, os pontos estariam sobre a reta y = x. 

Enquanto um gráfico de dispersão fornece uma possível relação global entre as variáveis, o 
gráfico q x q mostra se valores pequenos de X estão relacionados com valores pequenos de Y, se 
valores intermediários de X estão relacionados com valores intermediários de Y e se valores 


grandes de X estão relacionados com valores grandes de Y. Num gráfico de dispersão podemos 
terx,<x,ey,> > O que não pode acontecer num gráfico q X q, pois os valores em ambos os 


eixos estão ordenados, do menor para o maior. 


Exemplo 4.10 Na Tabela 4.18, temos as notas de 20 alunos em duas provas de Estatística e, na 
Figura 4.10, temos o correspondente gráfico q x q. Os pontos estão razoavelmente dispersos ao 
redor da reta x = y, mostrando que as notas dos alunos nas duas provas não são muito diferentes. 
Mas podemos notar que, para notas abaixo de cinco, os alunos tiveram notas maiores na segunda 
prova, ao passo que, para notas de cinco a oito, os alunos tiveram notas melhores na primeira 
prova. A maioria das notas estão concentradas entre cinco e oito. 


Figura 4.10 Gráfico q X q para as notas em duas provas de Estatística. 


Quantis 2 prova 
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Tabela 4.18 Notas de 20 alunos em duas provas de Estatística. 


Aluno Proval Prova2 | Aluno Proval Prova2 


1 85 8,0 11 7,4 6,5 
2 35 2,8 ED) 5,6 5,0 
3 75 6,5 13 6,3 6,5 
4 5,5 6,2 14 3,0 3,0 
5 9,5 9,0 15 8,1 9,0 
6 7,0 7,5 16 3,8 4,0 
7 4,8 5,2 df 6,8 5,5 
8 6,6 7,2 18 10,0 10,0 
9 2,5 4,0 19 45 5,5 
10 7,0 6,8 20 5,9 5,0 


Exemplo 4.11 Consideremos, agora, as variáveis temperatura de Ubatuba e temperatura de 
Cananeia, do CD-Temperaturas. O gráfico q x q está na Figura 4.11. Observamos que a maioria 
dos pontos está acima da reta y = x, mostrando que as temperaturas de Ubatuba são, em geral, 
maiores do que as de Cananeia, para valores maiores do que 17 graus. 

Quando m % n, é necessário modificar os valores de p para os quantis da variável com maior 
número de pontos. Ver o Problema 33 para a solução desse caso. 


Figura 4.11 Gráfico q X q para os lados de temperatura de Cananeia e Ubatuba. 


Problemas 


16. Faça o gráfico q X q para as notas em Redação e Economia dos 25 funcionários da MB Indústria e Comércio (Problema 9 do 
Capítulo 2). 
17. Faça o gráfico q X q para as variáveis salário de professor secundário e salário de administrador do CD-Salários. Comente. 


4.8 Exemplos Computacionais 


Vamos considerar brevemente nesta seção o caso de mais de dois conjuntos de dados. 
Exemplos são os dados sobre o Brasil, de poluição e estatísticas sobre veículos, encontrados nos 
Conjuntos de Dados. Veremos, também, um exemplo de cálculo do coeficiente de correlação 
para dados reais da Bolsa de Valores de São Paulo. 

Vejamos um exemplo em que temos duas variáveis quantitativas e uma qualitativa. 


Exemplo 4.12 Considere as variáveis salário, idade e grau de instrução da Tabela 2.1. Separamos, 
agora, os salários e idades por classes de grau de instrução. Depois, podemos fazer gráficos de 
dispersão, como na Figura 4.12. 

Os comandos necessários do R para fazer essas figuras são: 


tab21$idade<-tab21$idade anos*12+tab21$idade meses 

attach (tab21) 

par(mfrow=c(1,3), pin=c(2,2)) 

plot (idade[grau instrucao=="”ensino 

fundamental”], salario[grau instrucao==”ensino 

fundamental”], main=”Fundamental”, xlab=”Idade”, ylab=”Salário”, pch=16,col="darkblue”) 
plot (idade[grau instrucao=="”ensino 

médio”], salario[grau instrucao==”ensino 

médio”], main=”Médio”, xlab=”Idade”, ylab=”Salário”,pch=16,col=”darkblue”) 


plot (idade [grau instrucao==”superior”], salario[grau instrucao==”superior”], main=”Superior”, xlab=”Idade”, ylab=”Salário”, 
pch=16,col="darkblue”) 


Figura 4.12 Gráficos de dispersão das variáveis salário e idade, segundo a variável grau de instrução. 
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Notamos que para o ensino fundamental e grau superior os salários aumentam em geral com a 
idade, ao passo que para o ensino médio essa relação não se verifica, havendo salários baixos e 
altos numa faixa entre 350 e 450 meses. 


Exemplo 4.13 Considere o CD-Mercado, no qual temos os preços de fechamento diários de ações da 
Telebrás (X) e os índices IBOVESPA (Y), de 2 de janeiro a 24 de fevereiro de 1995, num total de 
n = 39 observações. O gráfico de dispersão está na Figura 4.13, que mostra que os pares de 
valores estão dispostos ao longo de uma reta com inclinação positiva. Ou seja, esse gráfico 
mostra que há uma forte correlação entre o preço das ações da Telebrás e o índice da Bolsa de 
Valores de São Paulo. No gráfico, está representada a “reta de mínimos quadrados”. No Capítulo 
16, veremos como determiná-la. 
Para construir a Figura 4.13 usamos os comandos do R: 


cd mercado <- read.table (“cd-mercado.csv”, h=T,skip=4, sep=”;”, dec=”,”) & Leitura dos dados 
attach (cd mercado) 

plot (telebras [1:39], indice[1:39], xlab=”Telebrás”, ylab=”Ibovespa”, pch=16,col=”darkblue”) 
abline(Im(indice[1:39]-telebras[1:39])) 


Figura 4.13 Gráfico de dispersão para ações da Telebrás e BOVESPA. R. 


Utilizando (4.9) obtemos que 
cost e 40213,78 - (39/27,99)36,28) 


E - = (0,98, 
R/E 1135,93 — (39X27,992 (51999, 68 — (39/36, 28)?) 


o que mostra a forte associação linear entre X e Y. 
Finalizamos esta seção com um tipo de gráfico que também é útil quando temos duas variáveis 
quantitativas e uma qualitativa. 


Exemplo 4.14 Considere o CD-Veículos, no qual temos o preço, o comprimento e a capacidade do 
motor de veículos vendidos no Brasil, classificados em duas categorias: N (nacionais) e 1 


(importados). Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos, 
indicando por um * se o carro for N e por um », se for I. Veja a Figura 4.14. Observamos, pela 
figura, que os preços dos veículos importados são, em geral, maiores do que os nacionais e que o 
preço aumenta com o comprimento. 


Figura 4.14 Gráfico de dispersão simbólico das variáveis preço e comprimento de veículos, categorizadas pela variável 
procedência: nacional ( « ) e importado (*). R. 


Os comandos no R são: 


cd veiculos <- read.table(“cd-veiculos.csv”, h=T, skip=4, sep=";”, dec=",”) & Leitura dos dados 


attach(cd veiculos) 


ggplot(cd veiculos, aes(comprimento, preco)) + geom point(aes(shape =N I, colour=N 1), size = 4) 


4.9 Problemas Suplementares 


18. No estudo de uma certa comunidade, verificou-se que: 
(1) A proporção de indivíduos solteiros é de 0,4. 
(II) A proporção de indivíduos que recebem até 10 salários mínimos é de 0,2. 
(II) A proporção de indivíduos que recebem até 20 salários mínimos é de 0,7. 
(IV) A proporção de indivíduos casados entre os que recebem mais de 20 salários mínimos é de 0,7. 
(V) A proporção de indivíduos que recebem até 10 salários mínimos entre os solteiros é de 0,3. 
(a) Construa a distribuição conjunta das variáveis estado civil e faixa salarial e as respectivas distribuições marginais. 
(b) Você diria que existe relação entre as duas variáveis consideradas? 
19. Uma amostra de 200 habitantes de uma cidade foi escolhida para declarar sua opinião sobre um certo projeto governamental. 
O resultado foi o seguinte: 


Local de residência 


Re Urbano | Suburbano | Rural Re 
A favor 30 35 35 100 
Contra 60 25 15 100 

Total 90 60 50 200 


(a) Calcule as proporções em relação ao total das colunas. 

(b) Você diria que a opinião independe do local de residência? 

(c) Encontre uma medida de dependência entre as variações. 
20. Com base na tabela abaixo, você concluiria que o tipo de atividade está relacionado ao fato de as embarcações serem de 
propriedade estatal ou particular? Encontre uma medida de dependência entre as variáveis. 


Atividade 


Propriedade Total 


Costeira 


Estatal 5 197 
Particular 92 371 
Total 97 568 


Fonte: Sinopse Estatística do Brasil — IBGE — 1975. 


21. Uma pesquisa sobre a participação em atividades esportivas de adultos moradores nas proximidades de centros esportivos 
construídos pelo estado de São Paulo mostrou os resultados da tabela abaixo. Baseado nesses resultados você diria que a 
participação em atividades esportivas depende da cidade? 


Cidade 
Participam 
São Paulo | Campinas | Rib. Preto | Santos 
Sim 50 65 105 120 
Não 150 185 195 180 


22. Uma pesquisa para verificar a tendência dos alunos a prosseguir os estudos, segundo a classe social do respondente, mostrou 
o seguinte quadro: 


Classe social 


Pretende continuar? Total 


Sim 200 | 220 380 | 800 
Não 200 | 280 720 1.200 


(a) Você diria que a distribuição de respostas afirmativas é igual à de respostas negativas? 

(b) Existe dependência entre os dois fatores? Dê uma medida quantificadora da dependência. 

(c) Se dos 400 alunos da classe alta 160 escolhessem continuar e 240 não, você mudaria sua conclusão? Justifique. 
23. Refaça os cálculos do Problema 19 usando as fórmulas derivadas em (4.2) - (4.3). 


24 Prove que -J A ad EN 1EO 
nato J dr) ) MS xz-nme (Sé —mp?) 
25. Numa amostra de cinco operários de uma dada empresa foram observadas duas variáveis: X: anos de experiência num dado 
cargo e Y: tempo, em minutos, gasto na execução de uma certa tarefa relacionada com esse cargo. 
As observações são apresentadas na tabela abaixo: 
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Você diria que a variável X pode ser usada para explicar a variação de Y? Justifique. 

26. Muitas vezes a determinação da capacidade de produção instalada para certo tipo de indústria em certas regiões é um 
processo difícil e custoso. Como alternativa, pode-se estimar a capacidade de produção por meio da escolha de uma outra 
variável de medida mais fácil e que esteja linearmente relacionada com ela. 

Suponha que foram observados os valores para as variáveis: capacidade de produção instalada, potência instalada e área 
construída. Com base num critério estatístico, qual das variáveis você escolheria para estimar a capacidade de produção 
instalada? 


X: cap. prod. inst. (ton) 45 4 5 8 910111212 
Y: potênciainst. (1.000kW) 1123355 6 6 6 
Z: área construída (100m) 6 710 10 119 12101114 


3x=80, >»=38, > z = 100, 
D2=7%6, Dy=182 52=1.048 
>» =361,  Dx=848  Sy=a4ll. 
27. Usando os dados da Tabela 2.1, Capítulo 2: 
(a) Construa a tabela de distribuições de frequências conjunta para as variáveis salário e idade, mas divida cada uma delas num 
certo número de intervalos de classe. 
(b) Como poderia ser calculado o coeficiente de correlação baseado nessa tabela? 
(c) Você conseguiria “escrever” a fórmula da correlação para dados agrupados? 
28. Lançam-se, simultaneamente, uma moeda de um real e uma de um quarto de dólar. Em cada tentativa anotou-se o resultado, 
cujos dados estão resumidos na tabela a seguir. 


he Nu Cara | Coroa | Total 
Cara 22 46 

Coroa 26 54 

Total 48 100 


Fonte: Experimento conduzido pelos autores. 


(a) Esses dados sugerem que os resultados da moeda de um real e as de um quarto de dólar estão associados? 
(b) Atribua para ocorrência cara o valor O e para a ocorrência de coroa o valor 1. Chamando de X, o resultado do real e de X, o 
resultado do quarto de dólar, calcule a correlação entre X, e X,. Essa medida está de acordo com a resposta que você deu 
anteriormente? 

29. Uma amostra de dez casais e seus respectivos salários anuais (em s.m.) foi colhida num certo bairro conforme vemos na 


tabela abaixo. 

[ceare [refe pepepepofeçoço 
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Salário 
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(a) Encontre o salário anual médio dos homens e o seu desvio padrão. 
(b) Encontre o salário anual médio das mulheres e o seu desvio padrão. 
(c) Construa o diagrama de dispersão. 
(d) Encontre a correlação entre o salário anual dos homens e o das mulheres. 
(e) Qual o salário médio familiar? E a variância do salário familiar? 
(f) Se o homem é descontado em 8% e a mulher em 6%, qual o salário líquido anual médio familiar? E a variância? 
30. O departamento de vendas de certa companhia foi formado há um ano com a admissão de 15 vendedores. 
Nessa época, foram observados para cada um dos vendedores os valores de três variáveis: 
T: resultado em um teste apropriado para vendedores; 
E: anos de experiência de vendas; 
G: conceito do gerente de venda, quanto ao currículo do candidato. 
O diretor da companhia resolveu agora ampliar o quadro de vendedores e pede sua colaboração para responder a algumas 
perguntas. Para isso, ele lhe dá informações adicionais sobre duas variáveis: 
V: volume médio mensal de vendas em s.m.; 
Z: zona da capital para a qual o vendedor foi designado. 
O quadro de resultados é o seguinte: 


G: conceito V: vendas do gerente | Z: zona 
Vendedor G: conceito do gerente V: vendas Z: zona 
1 8 5 Bom 54 Norte 
2 9 2 Bom 50 Sul 
3 E 2 Mau 48 Sul 
4 8 ] Mau 32 Oeste 
5 6 4 Bom 30 Sul 
6 8 4 Bom 30 Oeste 
7 5 3 Bom 29 Norte 
8 5 3 Bom 27 Norte 
Fo) 6 1 Mau 24 Oeste 
10 E a Mau 24 Oeste 
11 4 4 Bom 24 Sul 
12 7 2 Mau 23 Norte 
13 3 3 Mau 21 Sul 
14 5 ik Mau 21 Oeste 
15 3 2 Bom 16 Norte 


>ZT=9 5S7=601 SIW =2959 
Dados: DS E=40 SE =128  SEV=1.26 
SV=453 5 Vº = 15.509 


Mais especificamente, o diretor lhe pede que responda aos sete itens seguintes: 
(a) Faça o histograma da variável V em classes de 10, tendo por limite inferior da primeira classe o valor 15. 
(b) Encontre a média e a variância da variável V. Suponha que um vendedor seja considerado excepcional se seu volume de 
vendas é dois desvios padrões superior à média geral. Quantos vendedores excepcionais existem na amostra? 
(c) O diretor de vendas anunciou que transferirá para outra praça todos os vendedores cujo volume de vendas for inferior ao 1º 
quartil da distribuição. Qual o volume mínimo de vendas que um vendedor deve realizar para não ser transferido? 
(d) Os vendedores argumentam com o diretor que esse critério não é justo, pois há zonas de venda privilegiadas. A quem você 
daria razão? 
(e) Qual das três variáveis observadas na admissão do pessoal é mais importante para julgar um futuro candidato ao emprego? 
(f) Qual o grau de associabilidade entre o conceito do gerente e a zona a que o vendedor foi designado? Você tem explicação 
para esse resultado? 
(9) Qual o grau de associação entre o conceito do gerente e o resultado do teste? E entre zona e vendas? 
31. A seção de assistência técnica da Companhia MB tem cinco funcionários: A, B, C, D e E, cujos tempos de serviço na 
companhia são, respectivamente, um, três, cinco, cinco e sete anos. 
(a) Faça um gráfico representando a distribuição de frequência dos tempos de serviço X. 
(b) Calcule a média me(X), a variância var(X) e a mediana md(X). 
Duas novas firmas, a Verde e a Azul, solicitaram o serviço de assistência técnica da MB. Um mesmo funcionário pode ser 
designado para atender a ambos os pedidos, ou dois funcionários podem fazê-lo. Assim, o par (A, B) significa que o 
funcionário A atenderá à firma Verde e o funcionário B, à firma Azul. 
(c) Escreva os 25 possíveis pares de funcionários para atender a ambos os pedidos. 
(d) Para cada par, calcule o tempo médio de serviço X, faça a distribuição de frequência e uma representação gráfica. Compare 
com o resultado de (a). 
(e) Calcule para os 25 valores de X os parâmetros me (X), var(X) e md(X). Compare com os resultados obtidos em (b). Que tipo 
de conclusão você poderia tirar? 
(f) Para cada par obtido em (c), calcule a variância do par e indique-a por S2. Faça a representação gráfica da distribuição dos 
valores de S2. 
(9) Calcule me(S2) e var(S2). 
(h) Indicando por X, a variável que expressa o tempo de serviço do funcionário que irá atender à firma Verde e X, o que irá 
atender à firma Azul, faça a distribuição conjunta da variável bidimensional (X, X5). 
(i) As duas variáveis X, e X, são independentes? 
(j) O que você pode falar sobre as distribuições “marginais” de X, e X5? 


(1) Suponha agora que três firmas solicitem o serviço de assistência técnica. Quantas triplas podem ser formadas? 


(m) Sem calcular todas as possibilidades, como você acha que ficaria o histograma de X? E me(X)? e var(X)? 

(n) E sobre a variável s?? 

(0) A variável tridimensional (X, X, X5) teria alguma propriedade especial para as suas distribuições “marginais”? 
32. Refaça o problema anterior, admitindo agora que um mesmo funcionário não pode atender a duas firmas. 
33. Faça o gráfico q x q para os dois conjuntos de dados em A e B a seguir. 


B|48/35/45/50/52/]20/72]102/46| 82 |—|— 


34. Faça gráficos de dispersão unidimensionais e box plots para a variável salário da Tabela 2.1, segundo a região de procedência. 
Analise os resultados. 

35. Analise as variáveis salário e idade da Tabela 2.1, segundo o estado civil de cada indivíduo. Quais conclusões você pode 
obter? 

36. Analise a população total do CD-Brasil, segundo as regiões geográficas. 

37. Considere os dados do Exemplo 4.13 e o seguinte critério: valores abaixo da média indicam mercado em BAIXA e valores 
maiores ou iguais à média indicam mercado em ALTA. Categorize os dados segundo esse critério e apresente os resultados numa 
tabela de dupla entrada. Calcule uma medida de associação. O valor obtido corrobora ou não o resultado obtido no Exemplo 
4.13? Comente. 

38. Considere o CD-Poluição e as variáveis CO, temperatura e umidade. Faça gráficos de dispersão para pares de variáveis. Quais 
conclusões você pode obter? 

39. Calcule os valores C, Te V para a tabela abaixo. Justifique porque T = 1. 


Total | 100 200 200 | 500 


40. Suponha que queiramos verificar se existe relação entre a cor do cabelo de mães (X) e dos filhos (Y). Suponha os dados da 
tabela abaixo. Verifique se há associação entre X e Y. Calcule C, Ve T. 


E: Filhos 
mãe Claro Escuro gal 


Claro 28 
Escuro 12 
Total 40 


4.10 Complemento Metodológico 


1. Gráficos quantis x quantis. Na Seção 4.5 vimos como construir um gráfico q X q quando m = n. Suponha n > m, isto é, temos 
um número maior de observações de X. Então, usamos as observações ordenadas y(4) <... < Y(m) € interpolamos um conjunto 


i-0,5 
m 


correspondente de quantis para o conjunto dos x; ordenados. O valor ordenado y(; corresponde a p, = . Para X, queremos 


um valor j tal que 


logo 
je2(i-0,5)+0,5. 
m 


Se j for inteiro, fazemos o gráfico de Yi Versus x(;. 
Sej=k+r, em que kéinteiroe0<r<1, então 


[i-0,5 
m )=a-nxa tretas 


Exemplo: Sem = 20 en = 40, 
PR Se ' 
j= 20 0 - (0,5) + 0,5 = 27- 0,5, 
logo k = 2i-1,r = 0,5, e fazemos o gráfico de 
Ya) versus [0,5X1) + 0,5X ço), 


Y() Versus [0,5Xa, + 0,5X q] etc. 
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Parte II 
PROBABILIDADES 


Capítulo 5 
Probabilidades 


5.1 Introdução 


Na primeira parte deste livro, vimos que a análise de um conjunto de dados por meio de 
técnicas numéricas e gráficas permite que tenhamos uma boa ideia da distribuição desse 
conjunto. Em particular, a distribuição de frequências é um instrumento importante para 
avaliarmos a variabilidade das observações de um fenômeno aleatório. A partir dessas 
frequências observadas podemos calcular medidas de posição e variabilidade, como média, 
mediana, desvio padrão etc. Essas frequências e medidas calculadas a partir dos dados são 
estimativas de quantidades desconhecidas, associadas em geral a populações das quais os dados 
foram extraídos na forma de amostras. Em particular, as frequências (relativas) são estimativas 
de probabilidades de ocorrências de certos eventos de interesse. Com suposições adequadas, e 
sem observarmos diretamente o fenômeno aleatório de interesse, podemos criar um modelo 
teórico que reproduza de maneira razoável a distribuição das frequências, quando o fenômeno é 
observado diretamente. Tais modelos são chamados modelos probabilísticos e serão objeto de 
estudo neste capítulo e nos subsequentes. 


Exemplo 5.1 Queremos estudar as frequências de ocorrências das faces de um dado. Um 
procedimento a adotar seria lançar o dado certo número de vezes, n, e depois contar o número n, 


i 
de vezes em que ocorre a face i, i = 1, 2, ..., 6. As proporções n/n determinam a distribuição de 
frequências do experimento realizado. Lançando o dado um número n'(n'  n) de vezes, teríamos 
outra distribuição de frequências, mas com um padrão que esperamos ser muito próximo do 
anterior. 

O modelo probabilístico pode ser construído por meio de premissas, como se segue. 

Primeiro, observamos que só podem ocorrer seis faces; a segunda consideração que se faz é 
que o dado seja perfeitamente equilibrado, de modo a não favorecer alguma face em particular. 
Com essas suposições, cada face deve ocorrer o mesmo número de vezes quando o dado é 
lançado n vezes, e, portanto, a proporção de ocorrência de cada face deve ser 1/6. Nessas 
condições, o modelo teórico (ou probabilístico) para o experimento é dado na Tabela 5.1. 


Tabela 5.1 Modelo para lançamento de um dado. 


Face 1 a 3 4 5 6 | Total 
Frequência teórica | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 1 


Exemplo 5.2 De um grupo de duas mulheres (M) e três homens (H), uma pessoa será sorteada para 
presidir uma reunião. Queremos saber as probabilidades de o presidente ser do sexo masculino 
ou feminino. Observamos que: (i) só existem duas possibilidades: ou a pessoa sorteada é do sexo 


masculino (H) ou é do sexo feminino (M); (ii) supondo que o sorteio seja honesto e que cada 
pessoa tenha igual chance de ser sorteada, teremos o modelo probabilístico da Tabela 5.2 para o 
experimento. 


Tabela 5.2 Modelo teórico para o Exemplo 5.2. 


Sexo M | H | Total 


Frequência teórica | 2/5 | 3/5 1 


Dos exemplos acima, verificamos que todo experimento ou fenômeno que envolva um 
elemento casual terá seu modelo probabilístico especificado quando estabelecermos: 
(a) um espaço amostral, 92, que consiste, no caso discreto, da enumeração (finita ou infinita) 
de todos os resultados possíveis do experimento em questão: 
O=(0, 0... 0, ...) 
(os elementos de 92 são os pontos amostrais ou eventos elementares); 
(b) uma probabilidade, P(«), para cada ponto amostral, de tal sorte que seja possível encontrar 
a probabilidade P(A) de qualquer subconjunto A de 92, isto é, a probabilidade do que 
chamaremos de um evento aleatório ou simplesmente evento. 
Para ilustrar graficamente eventos, é costume utilizar-se os mesmos diagramas comumente 
usados na teoria dos conjuntos. Veja Morettin et. al. (2005). Na Figura 5.1, ilustramos por um 
quadrado o espaço amostral, por círculos os eventos A e B e por pontos os pontos amostrais. 


Figura 5.1 Espaço amostral e eventos aleatórios. 


Exemplo 5.3 Lançamos uma moeda duas vezes. Se C indicar cara e R indicar coroa, então um 
espaço amostral será 


Q = 0, 0, O, 04) 
em que o,=(C, 0), w,=(C, R), 0,=(R, €), q, = (R, R). É razoável supor que cada ponto q, 
tenha probabilidade 1/4, se a moeda for perfeitamente simétrica e homogênea. 


Se designarmos por A o evento que consiste na obtenção de faces iguais nos dois lançamentos, 
então 


P(A) = Plo, 0,) = 1/4+1/4= 1/2. 
De modo geral, se A for qualquer evento de Q2, então 
PA => P(0,) (5.1) 
4 


em que a soma é estendida a todos os pontos amostrais w, & A. 


Exemplo 5.4 Uma fábrica produz determinado artigo. Da linha de produção são retirados três 
artigos, e cada um é classificado como bom (B) ou defeituoso (D). Um espaço amostral do 


experimento é 
92 = (BBB, BBD, BDB, DBB, DDB, DBD, BDD, DDD). 
Se A designar o evento que consiste em obter dois artigos defeituosos, então A = (DDB, DBD, 
BDD). 


Exemplo 5.5 Considere o experimento que consiste em retirar uma lâmpada de um lote e medir seu 
“tempo de vida” antes de se queimar. Um espaço amostral conveniente é 

Q=(tel:t>0), 
isto é, o conjunto de todos os números reais não negativos. Se A indicar o evento “o tempo de 
vida da lâmpada é inferior a 20 horas”, então A = (t: O <t< 20). Esse é um exemplo de um 
espaço amostral contínuo, contrastado com os anteriores, que são discretos. 


1. Uma urna contém duas bolas brancas (B) e três bolas vermelhas (V). Retira-se uma bola ao acaso da urna. Se for branca, 
lança-se uma moeda; se for vermelha, ela é devolvida à urna e retira-se outra. Dê um espaço amostral para o experimento. 

2. Lance um dado até que a face 5 apareça pela primeira vez. Enumere os possíveis resultados desse experimento. 

3. Três jogadores A, B e C disputam um torneio de tênis. Inicialmente, A joga com B e o vencedor joga com C, e assim por 
diante. O torneio termina quando um jogador ganha duas vezes em seguida ou quando são disputadas, ao todo, quatro 
partidas. Quais são os resultados possíveis do torneio? 

4. Duas moedas são lançadas. Dê dois possíveis espaços amostrais para esse experimento. Represente um deles como o produto 
cartesiano de dois outros espaços amostrais (ver Morettin et. al., 2016, para o conceito de produto cartesiano). 

5. Uma moeda e um dado são lançados. Dê um espaço amostral do experimento e depois represente-o como produto cartesiano 
dos dois espaços amostrais, correspondente aos experimentos considerados individualmente. 

6. Defina um espaço amostral para cada um dos seguintes experimentos aleatórios: 

(a) Lançamento de dois dados; anota-se a configuração obtida. 

(b) Numa linha de produção conta-se o número de peças defeituosas num intervalo de uma hora. 

(c) Investigam-se famílias com três crianças, anotando-se a configuração segundo o sexo. 

(d) Numa entrevista telefônica com 250 assinantes, anota-se se o proprietário tem ou não máquina de secar roupa. 

(e) Mede-se a duração de lâmpadas, deixando-as acesas até que se queimem. 

() Um fichário com dez nomes contém três nomes de mulheres. Seleciona-se ficha após ficha, até o último nome de mulher ser 
selecionado, e anota-se o número de fichas selecionadas. 

(9) Lança-se uma moeda até aparecer cara e anota-se o número de lançamentos. 

(h) Um relógio mecânico pode parar a qualquer momento por falha técnica. Mede-se o ângulo (em graus) que o ponteiro dos 
segundos forma com o eixo imaginário orientado do centro ao número 12. 

(i) Mesmo enunciado anterior, mas supondo que o relógio seja elétrico e, portanto, seu ponteiro dos segundos mova-se 
continuamente. 

(j) De um grupo de cinco pessoas (A, B, C, D, E), sorteiam-se duas, uma após outra, com reposição, e anota-se a configuração 
formada. 

(1) Mesmo enunciado que (j), sem reposição. 

(m) Mesmo enunciado que (j), mas as duas selecionadas simultaneamente. 

(n) De cada família entrevistada numa pesquisa, anotam-se a classe social a que pertence (A, B, C, D) e o estado civil do chefe 
da família. 


5.2 Algumas Propriedades 


Sendo o modelo probabilístico um modelo teórico para as frequências relativas, de suas 
propriedades podemos obter algumas das propriedades das probabilidades, que estudaremos a 
seguir. 

Como a frequência relativa é um número entre O e 1, temos que 


0<P(A)<1, (5.2) 


para qualquer evento A. Será útil considerar o espaço todo 92 e o conjunto vazio 9 como eventos. 
O primeiro é denominado evento certo e o segundo, evento impossível, e temos 


P(Q)=1, P(9)=0. (5.3) 


Exemplo 5.6 Na Tabela 5.3, temos dados referentes a alunos matriculados em quatro cursos de uma 
universidade em dado ano. 


Tabela 5.3 Distribuição de alunos segundo o sexo e escolha de curso. 


Curso Sexo Homens (H) | Mulheres (F) | Total 
Matemática Pura (M) 70 40 110 
Matemática Aplicada (A) 15 15 30 
Estatística (E) 10 20 30 
Computação (C) 20 10 30 


Total 115 85 200 


Vamos indicar por M o evento que ocorre quando, escolhendo-se ao acaso um aluno do 
conjunto desses quatro cursos, ele for um estudante de Matemática Pura. 4, E, C, He F têm 
significados análogos. Dessa maneira, vemos que P(E) = 30/200, ao passo que P(H) = 115/200. 

Dados os eventos A e H, podemos considerar dois novos eventos: 


“AU H, chamado a reunião de A e H, quando pelo menos um dos eventos ocorre; 
*An H, chamado a intersecção de A e H, quando A e H ocorrem simultaneamente. 


É fácil ver que P(A n H) = 15/200, pois o aluno escolhido terá de estar, ao mesmo tempo, 
matriculado no curso de Matemática Aplicada e ser homem. 

Vemos que P(A) = 30/200 e P(H) = 115/200; suponha que nosso cálculo para P(A U H) fosse 

30 115 145 
P(AUH) = P(A) + PH) = + 500 200" 

Se assim o fizéssemos, estaríamos contando duas vezes os alunos que são homens e estão 
matriculados no curso de Matemática Aplicada, como destacado na Tabela 5.3. Portanto, a 
resposta correta é 
30 115 15 130 
200 * 200 200 200" 

No entanto, considerando-se os eventos A e C, vemos que P(A) = 30/200, P(C) = 30/200 e P(A 
U C) = 60/200 = P(A) + P(C). Nesse caso, os eventos A e €C são disjuntos ou mutuamente 
exclusivos, pois se A ocorre, então € não ocorre e vice-versa. Aqui, An C=ge P(An C)=0. 

Portanto, se U e V são dois eventos quaisquer, teremos a chamada regra da adição de 
probabilidades 


P(AUH) = P(A)+ P(H)- P(ANH) = 


P(U U W=P(U) + P(V) - P(U n V), (5.4) 


que se reduz a 


P(U E V)=P(U)+P(V), (5.5) 
se Ue Vsão eventos mutuamente exclusivos. Veja o Problema 58. 
Suponha, agora, que estejamos somente interessados em saber se um estudante escolhido ao 
acaso está matriculado como aluno de Matemática Pura, Aplicada, Estatística ou Computação, 
não interessando saber se é homem ou mulher. SejaB=MU EU C.EntãoAU B=-DeAnB 


= g. Dizemos que A e B são complementares e P(A) = 30/200, P(B) = 110/200 + 30/200 + 30/200 
= 170/200, isto é, P(A) + P(B) = 1. 

De modo geral, vamos indicar por Aº o complementar de um evento qualquer A, e teremos 
então 


P(A) + P(A = 1. (5.6) 


As operações de reunião, intersecção e complementação entre eventos possuem propriedades 
análogas aquelas válidas para operações entre conjuntos. Ver Morettin et. al. (2005). Por 
exemplo: 

(a) (An BS=ACU B(b)(AU BJS =AnB 

()And=5,ANnQ=-A(d)g-0,0=g 

()JANA=95(D)AUA=Q 

(DJAUG=AAVUO=-QMhAN(BUC)=(ANB)U(ANC) 

Vejamos um exemplo de aplicação das propriedades das probabilidades. 


Exemplo 5.7 Consideremos um experimento aleatório e os eventos A e B associados, tais que P(A) 
= 1/2, P(B)=1/3e P(A n B) = 1/4. Então temos: 

(a) P((A)=1-P(A)=1-1/2=1/2; 

P(B)=1-P(B)=1-1/3=2/3. 

(bDP(AU B)=P(A)+P(B)-P(AnB)=1/2+1/3-1/4=7/12. 

()P(ACnB)=PI(AU BJ]=1-P(AUB)=1-7/12=5/12. 

(DP(ACU BJ9=PI(ANB)J]=1-P(AnNB)=1-14=3/4, 

(e) Calculemos P(Aº n B), isto é, a probabilidade de que ocorra B e não ocorra A. Podemos 

escrever 
B=(AnB)U (An B), 
ou seja, B pode ocorrer com A ou (exclusivo) com Aº. Logo, 
P(B)= P(A n B)+ P(A n B), 
do que decorre 
P(A n B)=P(B)-P(AnB)=1/3-1/4=1/12. 

Consideremos, agora, uma situação historicamente importante, a saber, aquela em que temos 
um espaço amostral finito, Q = tq,, ..., ,), em que todos os pontos têm a mesma probabilidade 
1/n. Se A for um evento contendo m pontos amostrais, então 


P(A) =. 
n 


Nesse caso, não é necessário explicitar completamente Q e 4, bastando calcular m e n, 
chamados, respectivamente, número de casos favoráveis e número de casos possíveis. Para tanto, 
são usados os métodos clássicos de contagem da análise combinatória. Um princípio 
fundamental de contagem nos diz que, se uma tarefa pode ser executada em duas etapas, a 
primeira podendo ser realizada de p maneiras e a segunda de q maneiras, então as duas podem 
ser realizadas simultaneamente de pq maneiras. Esse é o chamado princípio multiplicativo. 


Exemplo 5.3 Suponha que num lote com 20 peças existam cinco defeituosas. Escolhemos quatro 
peças do lote ao acaso, ou seja, uma amostra de quatro elementos, de modo que a ordem dos 
elementos seja irrelevante. 


Dessa maneira, o número de amostras com quatro elementos que podemos extrair do lote é 


det ou seja, combinações de 20 elementos, tomados quatro a quatro. Suponha que queiramos 


calcular a probabilidade de se escolher duas defeituosas na amostra. Pelo visto acima, (2) é o 


número de pontos do espaço amostral. Seja A o evento que consiste em escolher duas defeituosas 
54/15 . 
na amostra. Segue-se que m (5) a ) pois podemos escolher na amostra de quatro elementos duas 


E mo E ê 51/15 . . a 
defeituosas e duas não defeituosas simultaneamente de ( K ) maneiras, usando o princípio 


22 
Gs) 
P(A) = AZ) 0,297. 
20 
1) 
Exemplo 5.9 O jogo da Megasena consiste em escolher 6 números dentre os 60 números (01, 02, ..., 


59, 60). O jogador pode marcar num cartão de 6 a 15 números. Os custos (em reais) de cada jogo 
estão relacionados abaixo. 


multiplicativo. Logo, 


Números Custo 


6 2,00 

7 14,00 
8 56,00 
9 168,00 
10 420,00 
11 924,00 
12 1.848,00 


13 3.432,00 
14 6.010,00 
15 10.010,00 


Temos, ao todo, (2) = soosas60 possibilidades. Portanto, com um jogo único de R$ 2,00 (seis 


Z RE Mo» fe a Z 60 5 E 
números), a probabilidade de ganhar o prêmio máximo é / ( E ih ou seja, aproximadamente, uma 


chance em 50 milhões. Por que o jogo com 7 números custa R$ 7,00? Porque com 7 números 
podemos formar (3)=7 jogos de 6 números. Ou seja, fazer um jogo com 7 números ou 7 jogos 


com 6 números são ações equivalentes, em termos de probabilidade de ganhar. Do mesmo modo, 
um jogo de 15 dezenas custa R$ 10.010,00, porque com 15 números podemos formar E )- 5.05 


jogos de 6 números. Portanto, é mais fácil preencher um boleto com 15 números do que 5.005 
boletos com 6 números, já que as probabilidades associadas são iguais. 


7. No Problema 4, liste os eventos: 
(a) pelo menos uma cara; 
(b) duas caras; 
(c) o complementar do evento em (b). 
8. Expresse em termos de operações entre eventos: 


(a) A ocorre mas B não ocorre; 
(b) exatamente um dos eventos A e B ocorre; 
(c) nenhum dos dois eventos A e B ocorre. 
9. No espaço amostral do Problema 3, atribua a cada ponto contendo k letras a probabilidade 1j2F (assim, AA tem probabilidade 
1/4). 
(a) Mostre que a soma das probabilidades dos pontos do espaço amostral é 1. 
(b) Calcule a probabilidade de que A vença (um jogador vence quando ganha duas partidas seguidas). Em seguida, calcule a 
probabilidade de que B vença. 
(c) Qual a probabilidade de que não haja decisão? 
10. No Problema 2, suponha que 5 indique o aparecimento da face 5 e Q indique que apareceu outra face qualquer diferente da 5. 
Atribua probabilidade (5/6) (1/6) a cada ponto com k letras iguais a Q seguidas de 5. 
(a) Mostre que a soma das probabilidades dos pontos amostrais é igual a um (aqui, você deve usar o resultado da soma dos 
termos de uma sequência geométrica infinita). 
(b) Calcule a probabilidade de que a face 5 apareça após três lançamentos do dado. 
11. Dentre seis números positivos e oito negativos, dois números são escolhidos ao acaso (sem reposição) e multiplicados. Qual a 
probabilidade de que o produto seja positivo? 
12. Considere o lançamento de dois dados. Considere os eventos: A = soma dos números obtidos igual a 9, e B = número no 
primeiro dado maior ou igual a 4. Enumere os elementos de Ae B. Obtenha 4 U BAN Be Aº. 
13. Obtenha as probabilidades dos eventos que aparecem nos Problemas 7 e 12. 
14. Que suposições devem ser feitas para que os resultados dos experimentos abaixo possam ser considerados equiprováveis? 
(a) Lançamento de um dado. 
(b) Opinião de moradores de uma cidade sobre um projeto governamental. 
(c) Preço de uma ação no fim da próxima semana. 


5.3 Probabilidade Condicional e Independência 


Voltemos à Tabela 5.3 do Exemplo 5.6. Dado que um estudante, escolhido ao acaso, esteja 
matriculado no curso de Estatística, a probabilidade de que seja mulher é 20/30 = 2/3. Isso 
porque, do total de 30 alunos que estudam Estatística, 20 são mulheres. Escrevemos 


: 2 
P(mulher | Estatistica) = 3 


Para dois eventos quaisquer A e B, sendo P(B) > 0, definimos a probabilidade condicional de 
A dado B, P(A|B), como 


P(ANB) 


P(A|B) = 
(d| P(B) 


é (5.7) 
Para o exemplo mencionado, se B e A indicam, respectivamente, os eventos “aluno 


matriculado em Estatística” e “aluno é mulher”, então 
20/200 2 
P(AIB) = 507200 * 3º 

como havíamos obtido. 

Observe que P(A) = P(mulher) = 85/200 = 17/40, e com a informação de que B ocorreu (o 
aluno é matriculado em Estatística), obtemos P(A|B) = 2/3. Podemos dizer que P(A) é a 
probabilidade a priori de A e, com a informação adicional de que B ocorreu, obtemos a 
probabilidade a posteriori P(A|B). Note que, nesse caso, P(A|B) > P(A), logo a informação de 
que B ocorreu aumentou a chance de A ocorrer. 

Da relação (5.7) obtemos a chamada regra do produto de probabilidades, 


P(A n B)= P(B) P (AB). (5.8) 


Exemplo 5.10 Uma urna contém duas bolas brancas (B) e três vermelhas (V). Suponha que são 
sorteadas duas bolas ao acaso, sem reposição. Isso significa que escolhemos a primeira bola, 


verificamos sua cor e não a devolvemos à urna; misturamos as bolas restantes e retiramos a 
segunda. O diagrama em árvore da Figura 5.2 ilustra as possibilidades. Em cada “galho” da 
árvore estão indicadas as probabilidades de ocorrência, sendo que para as segundas bolas as 
probabilidades são condicionais. A probabilidade do resultado conjunto é dada, então, por (5.8). 
Veja a Tabela 5.4. 


Figura 5.2 Diagrama em árvore para a extração de duas bolas de uma urna, sem reposição. 
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Se A indicar o evento “bola branca na segunda extração”, então 
7 4.3 
P(A) = P(BB) + P(VB) = > + — =. 
(4) = P(BB) + P(VB) id 


Tabela 5.4 Resultados e probabilidades para o experimento do Exemplo 5.10. 


Resultados | Probabilidades 


BB 2/5 x 1/4 = 2/20 
BV 2/5 x 3/4 = 6/20 
vB 3/5 x 2/4 = 6/20 
VV 3/5 x 2/4 = 6/20 


Total 1 


Exemplo 5.11 Imagine, agora, que as duas extrações são feitas da mesma urna do exemplo anterior, 
mas a primeira bola é reposta na urna antes da extração da segunda. Nessas condições, as 
extrações são independentes, pois o resultado de uma extração não tem influência no resultado 
da outra. Obtemos a situação da Figura 5.3 e da Tabela 5.5. 


Figura 5.3 Diagrama em árvore para a extração de duas bolas de uma urna, com reposição. 
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Tabela 5.5 Resultados e probabilidades para o experimento do Exemplo 5.11. 


Resultados | Probabilidades 


BB 2/5 x2/5= 4/25 
BV 2/5 x 3/5 = 6/25 
vB 3/5:% 2/5 = 6/25 
VV 3/5 x 3/5 = 9/25 


Total 1 


Observe que, aqui, 


P(branca na 2º | branca na 1º) = 2/5 = P(branca na 2º), 


ou seja, se indicarmos por A e B os eventos “bola branca na segunda extração” e “bola branca na 
primeira extração” , respectivamente, então P(A|B) = P(A). Nesse caso, dizemos que o evento A 
independe do evento B e, usando (5.8), temos 


P(A n B) = P(A) P(B). (5.9) 


É fácil ver que se A independe de B, então B independe de A — dizemos que A e B são 
independentes. A Fórmula (5.9) pode ser tomada como definição de independência entre dois 
eventos, ou seja, A e B são independentes se, e somente se, (5.9) for válida. 


Exemplo 5.12 Considere ainda a urna dos dois exemplos anteriores, mas vamos fazer três extrações 
sem reposição. Indiquemos por V, ou B, a obtenção de bola vermelha ou branca na i-ésima 
extração, respectivamente, i = 1, 2, 3. Obtemos a Figura 5.4 e a Tabela 5.6. 


Figura 5.4 Diagrama em árvore para a extração de três bolas de uma urna, sem reposição. 
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Tabela 5.6 Resultados e probabilidades para o experimento do Exemplo 5.12. 
Resultados Probabilidades 
BB,V, |2/5x1/4x1=2/20=6/60 
B,V;B, 2/5 x 3/4 x 1/3 = 6/60 
BV,V, 2/5 x 3/4 x 2/3 = 12/60 
V.B,B, 3/5 x 2/4 x 1/3 = 6/60 
VB, 3/5 x 2/4 x 2/3 = 12/60 
V.V,B, 3/5 x 2/4 x 2/3 = 12/60 
VVoV, 3/5 x 2/4 x 1/3 = 6/60 
Total 60/60 = 1 


Observe que P(B,|B,) = 1/4, ao passo que P(V.|B, n B,) = 1; daí, 
P(B,n B,n V)=P(B) P(BB) P(V;B, n B)=2/5x 1/4x1=1/10. 
De modo geral, dados três eventos 4, Be C, temos que 
P(A n Bn C)= P(A) P(BIA) P(CIA n B). (5.10) 
Essa relação pode ser estendida para um número finito qualquer de eventos. Veja o Problema 
60. 


Exemplo 5.13 A teoria da confiabilidade estuda sistemas e seus componentes, por exemplo, 
sistemas mecânicos e eletrônicos (um automóvel ou um computador) e sistemas biológicos, 
como o corpo humano. O objetivo da teoria é estudar as relações entre o funcionamento dos 


componentes e do sistema. A Figura 5.5 (a) ilustra um sistema composto de dois componentes 
ligados em série. 


Figura 5.5 Sistema com dois componentes (a) em série (b) em paralelo. 


(a) 


2 
(b) 


O sistema da figura funcionará se os componentes 1 e 2 funcionarem simultaneamente. Se um 
dos componentes falhar, o sistema também falhará. Supondo que os componentes funcionem 
independentemente, e se p; for a probabilidade de o componente i (i = 1,2) funcionar, então a 
probabilidade de o sistema funcionar será 

P(F)= P(A, nA;)) = P(AJP(A,) = pp», 
em que indicamos por F o evento “o sistema funciona” e por 4, o evento “o componente i 
funciona”, i= 1, 2. 

A probabilidade p, é a chamada confiabilidade do componente i e P(F) = h(p, p) = pp, a 
confiabilidade do sistema. 

Se os componentes 1 e 2 estiverem em paralelo, como na Figura 5.5 (b), então o sistema 
funcionará se pelo menos um dos dois componentes funcionar. Ou seja, 

PE) =PA UA)=PA)+P(A)-P(A, NA)=p;+Pp,;-Pi, 
e a confiabilidade do sistema é h(p, pD) =D, + p;— Dib». 

Vejamos agora o conceito de independência para três eventos: dizemos que os eventos 4, B e 

C são independentes se, e somente se, 


P(A n B) = P(A) P(B), 

P(An C)=P(A) P(C), 

P(Bn C)=P(B) P(C), 
P(AnBn C)=P(A) P(B) P(C). (5.11) 


Se apenas as três primeiras relações de (5.11) estiverem satisfeitas, dizemos que os eventos 4, 
Be C são mutuamente independentes. É possível que três eventos sejam mutuamente 
independentes, mas não sejam completamente independentes. Veja o Problema 59. 

A definição pode ser estendida facilmente para um número finito qualquer de eventos. Veja o 
Problema 61. 


15. Considere uma urna contendo três bolas pretas e cinco bolas vermelhas. Retire duas bolas da urna, sem reposição. 
(a) Obtenha os resultados possíveis e as respectivas probabilidades. 
(b) Mesmo problema, para extrações com reposição. 
16. No problema anterior, calcule as probabilidades dos eventos: 
(a) Bola preta na primeira e segunda extrações. 
(b) Bola preta na segunda extração. 
(c) Bola vermelha na primeira extração. 


17. A probabilidade de que A resolva um problema é de 2/3, e a probabilidade de que B o resolva é de 3/4. Se ambos tentarem 
independentemente, qual a probabilidade de o problema ser resolvido? 
18. Um dado é viciado, de tal forma que a probabilidade de sair um certo ponto é proporcional ao seu valor (por exemplo, o ponto 
6 é três vezes mais provável de sair do que o ponto 2). Calcular: 

(a) a probabilidade de sair 5, sabendo-se que o ponto que saiu é ímpar; 

(b) a probabilidade de tirar um número par, sabendo-se que saiu um número maior que 3. 
19. As probabilidades de que dois eventos independentes ocorram são p e q, respectivamente. Qual a probabilidade: 

(a) de que nenhum desses eventos ocorra? 

(b) de que pelo menos um desses eventos ocorra? 
20. Na figura abaixo, temos um sistema com três componentes funcionando independentemente, com confiabilidades p,, p> € pa. 
Obtenha a confiabilidade do sistema. 


21. Na tabela abaixo, os números que aparecem são probabilidades relacionadas com a ocorrência de 4, B, A N B etc. Assim, 
P(A) = 0,10, enquanto P(A N B) = 0,04. 


B Bº | Total 


A 0,04 | 0,06 | 0,10 
Aº | 0,08 | 0,82 | 0,90 


Total | 0,12 | 0,88 | 1,00 


Verifique se A e B são independentes. 
22. Supondo que todos os componentes do sistema da figura abaixo tenham a mesma confiabilidade p e funcionem 
independentemente, obtenha a confiabilidade do sistema. 


5.4 O Teorema de Bayes 
Uma das relações mais importantes envolvendo probabilidades condicionais é dada pelo 
Teorema de Bayes. A versão mais simples desse teorema é dada pela Fórmula (5.12): 


P(ANB) PA-P(B|A) 
P(B) P(B) 


P(A|B) = (5.12) 


Como salientamos na seção anterior, temos a probabilidade inicial P(A) e, dada a informação 
de que B ocorreu (ou dada a suposição de que B venha a ocorrer), obtemos a probabilidade a 
posteriori P(A|B), dada por (5.12). Ou seja, atualizamos a probabilidade inicial, multiplicando-a 


por “o. Observe que P(A|B) > P(A) se P(B|A) > P(B). A probabilidade P (BIA) é 


chamada verossimilhança da hipótese A. 

A forma geral do Teorema de Bayes será introduzida por um exemplo. 
Exemplo 5.14 Temos cinco urnas, cada uma com seis bolas. Duas dessas urnas (tipo C,) têm 3 bolas 
brancas, duas outras (tipo C,) têm 2 bolas brancas, e a última urna (tipo C,) tem 6 bolas brancas. 


Escolhemos uma urna ao acaso e dela retiramos uma bola. Qual a probabilidade de a urna 
escolhida ser do tipo C,, sabendo-se que a bola sorteada é branca? 


Na Figura 5.6, temos esquematizados o espaço amostral e os eventos de interesse. 


Figura 5.6 Espaço amostral e eventos para o Exemplo 5.14. 


Queremos encontrar P(C.|B), sabendo que 
P(C) = 2/5, P(BIC,) = 1/2, 
P(C) = 2/5, P(BIC)) = 1/3, 
P(C.) = 1/5, P(B|C,) = 1. 
Da definição de probabilidade condicional, temos 


P(CNB) PMC)P(BIC,) 
+ RA 7 (5.13) 
A segunda igualdade é devida à Fórmula (5.8). 
Precisamos encontrar o valor de P(B), já que o numerador é conhecido. Como C,, C, e C, são 
eventos mutuamente exclusivos, e reunidos formam o espaço amostral completo, podemos 


decompor o evento B na reunião de três outros, também mutuamente exclusivos, como segue 
(ver também a Figura 5.6): 


B=(CnB)U(C,nB)U(C,n B), (5.14) 


P(C,|B) = 


e então 
P(B) = P(C,NB) + P(C,NB) + P(C, NB) 


= P(C)P(BIC,) + P(C,)P(BI|C;) + P(CP(B|C,) 
e E SR 8 


x=+tex=+=2x1 


o. a ea o 
Substituindo esse resultado em (5.13), obtemos 


l5x1 3 
PGI|B="sã5 "3 


Podemos, agora, generalizar os resultados acima do seguinte modo: seja (C,, C,, ..., C,) uma 
partição do espaço amostral OQ, isto é, 


C,n C,=6, sempre que i * j, 
CUGU.UC =D. 


Considere um evento qualquer A em 92. Supomos conhecidas as probabilidades P(C) e 
P(AIC), i=1,2,..,n. 


Então, temos o seguinte resultado, ilustrado pela Figura 5.7. 


Figura 5.7 Partição de um espaço amostral. 
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Teorema 5.1 (Bayes) A probabilidade de ocorrência do evento C, supondo-se a ocorrência do evento 
A, é dada por 
P(C)P(AI|C) 


C|A= ; 
an Dia P(C)P(A|C,) (E) 
para todoi=1,2,...;n 

Podemos pensar C,, .... C, como um conjunto de hipóteses, sendo somente uma delas 

verdadeira. Dado que A ocorreu, a probabilidade inicial de C, P(C)), é modificada de modo a se 

obter P(C|A), dada por (5.15). Passamos da probabilidade a priori P(C;) para a probabilidade a 
posteriori P(C|A), multiplicando a primeira por 
P(AIC,) 

Dia PC9PAlC) 


(5.16) 


Para A fixado, as probabilidades P(A|C) em (5.15) são denominadas verossimilhanças das 
hipóteses C,, C,, ..., C. Vemos que P(C|IA) > P(C;) se (5.16) for maior do que um, isto é, se 
P(AIC) > P(A), em que P(A) é o denominador de (5.16). Observe que esse denominador é uma 
média ponderada dos P(A|C) e os pesos são as probabilidades P(C;), que têm soma unitária. 
Como o numerador é sempre uma das parcelas do denominador P(A), torna-se indispensável o 
uso de um novo índice, j, na decomposição deste. 


Exemplo 5.15 Para selecionar seus funcionários, uma empresa oferece aos candidatos um curso de 
treinamento durante uma semana. No final do curso, eles são submetidos a uma prova e 25% são 
classificados como bons (B), 50% como médios (M) e os restantes 25% como fracos (F). Para 
facilitar a seleção, a empresa pretende substituir o treinamento por um teste contendo questões 
referentes a conhecimentos gerais e específicos. Para isso, gostaria de conhecer qual a 
probabilidade de um indivíduo aprovado no teste ser considerado fraco, caso fizesse o curso. 
Assim, neste ano, antes do início do curso, os candidatos foram submetidos ao teste e receberam 
o conceito aprovado (A) ou reprovado (R). No final do curso, obtiveram-se as seguintes 
probabilidades condicionais: 
P(A|B) = 0,80, P(AIM) = 0,50, P(AIF) = 0,20. 
Queremos encontrar P(F|A) e, pelo Teorema de Bayes, essa probabilidade é dada por 
P(ALF)P(F) 
P(A|B)P(B) + P(AÍM)P(M) + P(A|F)P(F) 


(0, 200,25) 
* (0,80)0,25) + (0,50)(0,50) + (0,20)0,25) 


P(F|A) = 


= 0,10. 


Então, apenas 10% dos aprovados é que seriam classificados como fracos durante o curso. De 
modo análogo, podemos encontrar P(B|JA) = 0,40 e P(MIA) = 0,50, que poderiam fornecer 


subsídios para ajudar na decisão de substituir o treinamento pelo teste. 

Um gráfico em árvore pode ajudar bastante na solução de um problema envolvendo o 
Teorema de Bayes. Desse modo, para o Exemplo 5.15, teremos a Figura 5.8 e a Tabela 5.7. 
Assim, o numerador de P(F|A) está assinalado com um pequeno círculo, ao passo que o 
denominador é a soma das três parcelas assinaladas com asterisco. 


Figura 5.8 Diagrama em árvore para o Exemplo 5.15. 
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O Teorema de Bayes, que aparentemente poderia ser encarado como mais um resultado na 
teoria de probabilidades, tem importância fundamental, pois fornece a base para uma abordagem 
da inferência estatística conhecida como inferência bayesiana. Esse ponto será abordado 
brevemente no Capítulo 11. 


Tabela 5.7 Resultados e probabilidades para o Exemplo 5.15. 


Resultados Probabilidades 
BA (0,25) (0,80) = 0,20* 
BR (0,25) (0,20) = 0,05 
MA (0,50) (0,50) = 0,25* 
MR (0,50) (0,50) = 0,25 
FA (0,25) (0,20) = 0,05* º 
FR (0,25) (0,80) = 0,20 


O Teorema de Bayes fornece um mecanismo formal para atualizar probabilidades, como já 
vimos acima. Vejamos mais um exemplo para ilustrar esse ponto. 


Exemplo 5.16 A administração de um fundo de investimentos em ações pretende divulgar, após o 
encerramento do pregão, a probabilidade de queda de um índice da bolsa no dia seguinte, 
baseando-se nas informações disponíveis até aquele momento. Suponha que a previsão inicial 
seja de 0,10. Após encerrado o pregão, nova informação sugere uma alta do dólar frente ao real. 
A experiência passada indica que, quando houve queda da bolsa no dia seguinte, 20% das vezes 
foram precedidas por esse tipo de notícia, enquanto, nos dias em que a bolsa esteve em alta, 
apenas em 5% das vezes houve esse tipo de notícia no dia anterior. 

Chamando de E o evento que indica “queda da bolsa”, a sua probabilidade a priori é P(E) = 
0,10, enquanto a probabilidade de alta é P(E?) = 0,90. Se B indicar “alta do dólar”, então as 
verossimilhanças são dadas por 

P(BI|E) = 0,20, P (B|E9 = 0,05. 

Logo, pelo Teorema de Bayes, teremos que 

P(E) P(B|E) 


PLA + P(E)P(B |E) + P(ES)P(BIES)* 


ou seja, 
(0,10/0,20) 0,02 4 
(0,10)0,20) + (0,90/0,05) 0,065 13” 


P(E B) = 0,31. 


Portanto, a nova informação aumenta a probabilidade de que haja queda na bolsa de 10% para 
31%. 

Suponha, agora, que horas depois surja nova informação relevante: o Banco Central irá reduzir 
a taxa de juros vigente a partir do dia seguinte. Denotando-se, agora, por B, o evento “alta do 
dólar” e por B, o evento “queda na taxa de juros”, o interesse será saber como essa nova 
informação, B,, afetará a probabilidade calculada, P(E|B)). Segue-se que essa é agora a 
probabilidade a priori para E com respeito a B,. 

Novamente, informações passadas mostram que, dado que tenha havido alta do dólar e queda 
da bolsa, 10% das vezes foram precedidas por notícias de queda de juros, enquanto, dado que 
tenha havido alta do dólar e alta da bolsa, 60% das vezes foram precedidas de queda dos juros. 
Então, as verossimilhanças agora serão dadas por 

P(BJE, B,) = 0,10, P(B;Ec, B,) = 0,60. 

O Teorema de Bayes fica escrito agora na forma 
. P(E|B,) P(B, |E,B,) 

P(E|B,) P(B, |E,B) + P(E< |B) P(B, 


P(EIB, B;) 


Es,B)' 


do que segue que 
(0, 310,10) 0,031 


———— DO = = (0,07. 
(0,31)(0,10) + (0,69/0,60) 0,445 ? 


P(E|B,B,) = 


Ou seja, a informação B, causa um decréscimo na probabilidade de queda da bolsa, de 0,31 
para 0,07, que é menor ainda do que a probabilidade a priori inicial, P(E) = 0,10. 

Observe que a probabilidade P(E|B,, B,) pode ser escrita também como P(E|B, n B,), ou seja, 
temos a ocorrência simultânea dos eventos B, e B.. 


23. Uma companhia produz circuitos em três fábricas, I, II e HI. A fábrica I produz 40% dos circuitos, enquanto a Il e a HI 
produzem 30% cada uma. As probabilidades de que um circuito integrado produzido por essas fábricas não funcione são 0,01, 
0,04 e 0,03, respectivamente. Escolhido um circuito da produção conjunta das três fábricas, qual a probabilidade de o mesmo não 
funcionar? 

24. Considere a situação do problema anterior, mas suponha agora que um circuito escolhido ao acaso seja defeituoso. Determine 
qual a probabilidade de ele ter sido fabricado por I. 

25. A urna 1 contém duas bolas pretas e três brancas, ao passo que a urna II contém três bolas pretas e três brancas. Escolhemos 
uma urna ao acaso e dela extraímos uma bola que tem cor branca. Se a bola é recolocada na urna, qual é a probabilidade de se 
retirar novamente uma bola branca da mesma urna? 


5.5 Probabilidades Subjetivas 


Na Seção 5.1 vimos como associar probabilidades a eventos. Utilizamos um enfoque chamado 
frequentista, pois se baseia na estabilidade das frequências relativas e no fato de podermos, 
hipoteticamente, repetir um experimento várias vezes. Mas é óbvio que nem sempre podemos 
considerar replicações. Suponha que queiramos calcular a probabilidade de chover no dia 12 de 
janeiro do próximo ano, na cidade de São Paulo. Evidentemente, se considerarmos o evento A = 
chover em São Paulo no dia 12 de janeiro do próximo ano, ele não pode ser replicado. O que 


poderemos eventualmente considerar é em quantos dias 12 de janeiro de anos anteriores choveu 
e calcular uma frequência relativa. Se tivermos essa informação, ela evidentemente poderá ser 
usada. Mas suponha que uma pessoa morando em Fortaleza tenha de calcular essa probabilidade. 
Se ela não tiver informação sobre o tempo em São Paulo, poderá simplesmente dizer que essa 
probabilidade é de 1/2. Por outro lado, uma pessoa vivendo em São Paulo terá informações 
adicionais. Por exemplo, saberá que normalmente janeiro, fevereiro e março são meses com 
muita chuva. Esse morador de São Paulo poderá arriscar uma probabilidade, digamos de 2/3 para 
o evento A. Vemos, portanto, que a associação de probabilidades a um evento depende de cada 
indivíduo, de sua informação a respeito desse evento. Esse tipo de apreciação é particularmente 
recomendável quando o indivíduo julga que as replicações anteriores não sejam comparáveis 
com a próxima. Por exemplo, o fenômeno El Nifio pode ter ocorrido com grande intensidade em 
janeiro de 1999, provocando muita chuva no sudeste do Brasil, e sua intensidade nos anos 
seguintes talvez seja menor. 

Respostas a questões como essa envolvem o que chamamos de probabilidade subjetiva. Ou 
seja, cada indivíduo, baseado em informações anteriores e na sua opinião pessoal a respeito do 
evento em questão, pode ter uma resposta para a probabilidade desse evento. A Inferência 
Bayesiana, de que trataremos brevemente neste livro (veja o Capítulo 11), toma como uma de 
suas bases o fato de que todas as probabilidades são subjetivas. O Teorema de Bayes tem papel 
importante nesse tipo de inferência, pois passa a ser visto como um mecanismo de atualização de 
opiniões. Ou seja, o indivíduo aprende B e passa a ter opinião P(A|B) sobre A. 

Um ingrediente básico quando se associam probabilidades é a coerência. Se um indivíduo 
julgar que um evento A é mais provável que seu complementar, então ele deverá, como que 
apostando na ocorrência de A, associar uma probabilidade maior do que 1/2 ao evento A. Por 
exemplo, se ele julgar que uma proporção 3 : 1 a favor de A é razoável, então ele deverá sugerir 
P(A) = 3/4. A fórmula de Bayes fornece uma maneira coerente de atualizar opiniões. 

As probabilidades associadas a eventos de modo subjetivo têm propriedades análogas àquelas 
vistas em seções anteriores e podem ser obtidas a partir do princípio da coerência. Há outras 
maneiras de se associar probabilidades a eventos e os interessados poderão consultar O"Hagan 
(1994), por exemplo, para obter mais informações sobre esse assunto e outros ligados à 
Inferência Bayesiana. 


5.6 Problemas Suplementares 


26. Um restaurante popular apresenta apenas dois tipos de refeições: salada completa ou um prato à base de carne. Considere que 
20% dos fregueses do sexo masculino preferem a salada, 30% das mulheres escolhem carne, 75% dos fregueses são homens e os 
seguintes eventos: 
H: freguês é homem A: freguês prefere salada 
M: freguês é mulher B: freguês prefere carne 
Calcular: 

(a) P(H), P(A|HD, P(BIM); 

(b) P(A N H), P(A U H); 

(c) P(MIA). 
27. Uma companhia de seguros analisou a frequência com que 2.000 segurados (1.000 homens e 1.000 mulheres) usaram o 
hospital. Os resultados são apresentados na tabela: 


Mulheres 


Usaram o hospital 100 150 


Não usaram o hospital 900 850 


(a) Qual a probabilidade de que uma pessoa segurada use o hospital? 

(b) O uso do hospital independe do sexo do segurado? 
28. As probabilidades de três motoristas serem capazes de guiar até em casa com segurança, depois de beber, são de 1/3, 1/4 e 
1/5, respectivamente. Se decidirem guiar até em casa, depois de beber numa festa, qual a probabilidade de todos os três 
motoristas sofrerem acidentes? Qual a probabilidade de pelo menos um dos motoristas guiar até em casa a salvo? 
29. Duas lâmpadas queimadas foram acidentalmente misturadas com seis lâmpadas boas. Se vamos testando as lâmpadas, uma 
por uma, até encontrar duas defeituosas, qual é a probabilidade de que a última defeituosa seja encontrada no quarto teste? 
30. Suponhamos que 10.000 bilhetes sejam vendidos em uma loteria e 5.000 em outra, cada uma tendo apenas um ganhador. Um 
homem tem 100 bilhetes de cada. Qual a probabilidade de que: 

(a) ele ganhe exatamente um prêmio? 

(b) ele ganhe alguma coisa? 
31. Uma companhia de seguros vendeu apólices a cinco pessoas, todas da mesma idade e com boa saúde. De acordo com as 
tábuas atuariais, a probabilidade de que uma pessoa daquela idade esteja viva daqui a 30 anos é de 2/3. Calcular a probabilidade 
de que daqui a 30 anos: 

(a) exatamente duas pessoas estejam vivas; 

(b) todas as pessoas estejam vivas; e 

(c) pelo menos três pessoas estejam vivas. 
(Indique as suposições necessárias para a resolução do problema.) 
32. Num teste com duas marcas que lhe são apresentadas em ordem aleatória, um experimentador de vinhos faz três 
identificações corretas em três tentativas. 

(a) Qual a probabilidade de isso ocorrer, se na realidade ele não possuir habilidade alguma para distingui-los? 

(b) E se a probabilidade de distinguir corretamente é de 90% em cada tentativa? 
33. Um grupo de 12 homens e 8 mulheres concorre a três prêmios por meio de um sorteio, sem reposição de seus nomes. Qual a 
probabilidade de: 

(a) nenhum homem ser sorteado? 

(b) um prêmio ser ganho por homem? 

(c) dois homens serem premiados? 
34. Um empreiteiro apresentou orçamentos separados para a execução da parte elétrica e da parte de encanamento de um edifício. 
Ele acha que a probabilidade de ganhar a concorrência da parte elétrica é de 1/2. Caso ele ganhe a parte elétrica, a chance de 
ganhar a parte de encanamento é de 3/4; caso contrário, essa probabilidade é de 1/3. Qual a probabilidade de ele: 

(a) ganhar os dois contratos? 

(b) ganhar apenas um? 

(c) não ganhar nada? 
35. Em média, 5% dos produtos vendidos por uma loja são devolvidos. Qual a probabilidade de que, das quatro próximas 
unidades vendidas desse produto, duas sejam devolvidas? 
36. Três alarmes estão dispostos de tal maneira que qualquer um deles funcionará independentemente quando qualquer coisa 
indesejável ocorrer. Se cada alarme tem probabilidade 0,9 de trabalhar eficientemente, qual é a probabilidade de se ouvir o alarme 
quando necessário? 
37. Em uma fábrica de parafusos, as máquinas 4, B e C produzem 25%, 35% e 40% do total, respectivamente. Da produção de 
cada máquina 5%, 4% e 2%, respectivamente, são parafusos defeituosos. Escolhe-se ao acaso um parafuso e verifica-se que é 
defeituoso. Qual a probabilidade de que o parafuso venha da máquina A; da B; e da C? 
38. Um fabricante afirma que apenas 5% de todas as válvulas que produz têm duração inferior a 20 horas. Uma indústria compra 
semanalmente um grande lote de válvulas desse fabricante, mas sob a seguinte condição: ela aceita o lote se, em dez válvulas 
escolhidas o acaso, no máximo uma tiver duração inferior a 20 horas; caso contrário, o lote todo é rejeitado. 

(a) Se o fabricante de fato tem razão, qual a probabilidade de um lote ser rejeitado? 

(b) Suponha agora que o fabricante esteja mentindo, isto é, na verdade a proporção de válvulas com duração inferior a 20 horas 

é de 10%. Qual a probabilidade de um lote ser aceito, segundo o critério acima? 
39. Para estudar o comportamento do mercado automobilístico, as marcas foram divididas em três categorias: marca F, marca W, 
e as demais reunidas como marca X. Um estudo sobre o hábito de mudança de marca mostrou o seguinte quadro de 
probabilidade: 


Probabilidade de mudança para 


Proprietário de carro da marca 
j 


W 0,50 0,25 0,25 
F 0,15 0,70 0,15 
x 0,30 0,30 0,40 


A compra do primeiro carro é feita segundo as seguintes probabilidades: marca W com 50%, marca F com 30% e marca X com 
20%. 

(a) Qual a probabilidade de um indivíduo comprar o terceiro carro da marca W? 

(b) Se o terceiro carro é da marca W, qual a probabilidade de o primeiro também ter sido W? 
40. A empresa M & B tem 15.800 empregados, classificados de acordo com a tabela abaixo. 


Idade Sexo Homens (M) | Mulheres (F) | Total 


<25 anos (A) 2.000 800 2.800 
25 — 40 anos (B) 4.500 2.500 7.000 
> 40 anos (C) 1.800 4.200 6.000 
Total 8.300 7.500 15.800 


Se um empregado é selecionado ao acaso, calcular a probabilidade de ser ele: 

(a) um empregado com 40 anos de idade ou menos; 

(b) um empregado com 40 anos de idade ou menos, e mulher; 

(c) um empregado com mais de 40 anos de idade e que seja homem; 

(d) uma mulher, dado que é um empregado com menos de 25 anos. 
41. Considere o Problema 40 e suponha que escolhamos dois empregados ao acaso, com reposição. Qual a probabilidade de que: 

(a) ambos sejam do sexo masculino; 

(b) o primeiro tenha menos de 25 anos, e o segundo seja do sexo masculino e tenha menos de 25 anos; 

(c) nenhum tenha menos de 25 anos. 
42. Resolva as questões (a) e (c) do Problema 41, supondo que a amostragem é feita sem reposição. 
43. Numa empresa existem operários de determinada categoria, com idades iguais a a, b e c anos (existem pelo menos três com a 
mesma idade). Escolhem-se três ao acaso para que façam determinado curso. Se indicarmos por x a idade do primeiro, y a do 
segundo e z a do terceiro, o terno (x, y, z) indica cada possível resultado. Enumere: 

(a) o espaço amostral; e 

(b) os eventos A = [(x,y,z)x=y=z),, B=t(x,y, 2)x=y>. 
44. Os colégios 4, Be C têm as seguintes porcentagens de rapazes, respectivamente: 40%, 20% e 10%. Um desses colégios é 
selecionado ao acaso e oito alunos são escolhidos, com reposição. Se o resultado for RRRMMMMM (R para rapaz e M para 
moça), qual é a probabilidade de ter sido selecionado o colégio C? 
45. Um inspetor da seção de controle de qualidade de uma firma examina os artigos de um lote que tem m peças de primeira 
qualidade e n peças de segunda qualidade. Uma verificação dos b primeiros artigos selecionados ao acaso do lote mostrou que 
todos eram de segunda qualidade (b <n - 1). Qual a probabilidade de que entre os dois próximos artigos selecionados, ao acaso, 
dos restantes, pelo menos um seja de segunda qualidade? 


46. Prove que, se A e B são independentes, também o serão ACe BS, Ae BCe ACe B. 


47. Obtenha uma fórmula para P(A U BU 0). 


48. Na figura abaixo, temos um sistema chamado ponte. Nas mesmas condições do Problema 22, obtenha a confiabilidade do 
sistema. 


49. Considere o quadrado com vértices (0,0), (1,0), (0,1) e (1,1). Suponha que a probabilidade de uma região A (evento) seja a 
área dessa região. 


(0,1) (1) 


(0,0) (1,0) 


(a) Represente graficamente o evento A = conjunto dos pontos cuja distância à origem seja menor ou igual a 1. 

(b) Calcule P(A). 

(c) Calcule a probabilidade do evento B= ((x,y):x>b ouy > b), em que b é um número tal que O < b<1. 

(d) Calcule P(B9, em que B foi definido em (c). 
50. Considere 2 como o quadrado da figura do Problema 49. Considere os eventos: 
A=t(x,)):1/3<x<2/3,0<y<1/2) 
B=-((x,)y):12<x<1,1/4<y< 3/4). 
Calcular P(A), P(B), P(A U B), P(AS), P(BS) e P(AS N B9. 
51. Considere, agora, a situação do Problema 49, mas suponha que o quadrado não tenha área unitária. Como você definiria a 
probabilidade de um evento A? 
52. Suponha uma população de N elementos a,, a», ..., ay. Qualquer arranjo ordenado a;, ;>, ..., G;n de n símbolos é chamado de 
uma amostra ordenada de tamanho n, extraída da população. Considere o símbolo (N), como significando N(N - 1)... (N -n + 
1). Suponha n < N. Mostre que existem N” amostras com reposição (um mesmo elemento pode ser retirado mais de uma vez) e 
(N)n amostras sem reposição (um elemento, quando escolhido, é removido da população, não havendo, pois, repetição na 
amostra). 
53. Uma amostra ordenada de tamanho n, extraída de uma população com N elementos, produz um plano aleatório simples se 
todas as possíveis amostras têm a mesma probabilidade de serem escolhidas; essa probabilidade será 1/N” se a amostra for com 
reposição e 1/(N), se for sem reposição. Uma amostra casual de tamanho n, com reposição, é extraída de uma população com N 
elementos. Encontre a probabilidade de não haver repetição na amostra. 


. (N), N! edi « . a 
54. Considere (1) ac Tu m(N=n)t Observe a situação do Problema 52, na qual não levamos em consideração a ordem do 
conjunto a;, Gjp, -»., Gn: 
p N re 
Mostre que existem l ] amostras sem reposição. 
n 

/ 

55. (a) Se 4, Be C são independentes, prove que A e B N C são independentes. 
(b) Nas mesmas condições, prove que A U BeCsão independentes. 

56. Dizemos que A CB (A é subconjunto de B) se todo elemento de A também pertence a B. Por exemplo, (1, 2) C 41,2,3). 
Se P(A) = 1/3, P(Bº) = 1/4, A e B podem ser disjuntos (ou mutuamente exclusivos)? (Sugestão: P(A) = P(A N B) + P(A N B9e 
ANBC Bº Useo fato de que, seA € B, P(A) < P(B).) 
57. Um sistema é composto de três componentes 1, 2 e 3, com confiabilidade 0,9, 0,8 e 0,7, respectivamente. O componente 1 é 
indispensável ao funcionamento do sistema; se 2 ou 3 não funcionam, o sistema funciona, mas com um rendimento inferior. A 


falha simultânea de 2 e 3 implica o não-funcionamento do sistema. Supondo que os componentes funcionem independentemente, 
calcular a confiabilidade do sistema. 


58. Prove (5.4). (Sugestão: escreva U U Ve V como reuniões de eventos mutuamente exclusivos.) 
59. Há quatro bolas numa urna, numeradas 000, 011, 101, 110. Selecione uma bola ao acaso da urna. Considere os eventos 
A;: na bola selecionada, o número 1 aparece na posição i, i = 1,2,3. 


SejaA=A, NANA, 

(a) Calcule P(A;), i = 1,2,3 e P(A). 

(b) Mostre que A,, A, e A; são mutuamente independentes, mas não são independentes. 
60. Como fica a relação (5.10) para n eventos quaisquer Ay, As, ..., Ap? 
61. Definir independência para n eventos quaisquer A,, ..., Ap. 


62. O problema do aniversário. Considere k pessoas numa sala. Qual a probabilidade de que pelo menos duas pessoas façam 
aniversário no mesmo dia e mês? A partir de qual valor de k essa probabilidade é maior que 0,5? 


(Sugestão: seja A o evento “pelo menos duas pessoas fazem aniversário no mesmo dia”. O evento complementar é A: “todas as k 


pessoas fazem aniversário em dias diferentes”. Calcule primeiro a P(AS). Para isso, use o resultado do Problema 53. Aqui, temos 
N = 365 dias e k = n pessoas. Se P(A) = p, então mostre que 

= po Ra ne o ESSES qu 
Note que há k fatores no numerador e no denominador dessa expressão.) 
63. Mostre que a probabilidade 1 - p do Problema 62 pode ser escrita como 

1+2+..4k-1 k-1 
E Sa et SE, 

para k pequeno. Como ficará P(A) neste caso? 
64. Num mercado, três corretoras 4, Be C são responsáveis por 20%, 50% e 30% do volume total de contratos negociados, 
respectivamente. Do volume de cada corretora, 20%, 5% e 2%, respectivamente, são contratos futuros em dólares. Um contrato é 
escolhido ao acaso e este é futuro em dólares. Qual é a probabilidade de ter sido negociado pela corretora A? E pela corretora C? 
65. Lance uma moeda duas vezes e sejam os eventos: A: cara no primeiro lançamento, 
B: cara no segundo lançamento e C: as duas moedas mostram faces diferentes. 
Mostre que A, Be C são dois a dois independentes, mas não totalmente independentes. 
66. O Problema de Monty Hall. Num programa de TV, o objetivo é ganhar um carro como prêmio. O apresentador do programa 
mostra a você três portas, P,, P; e P,: atrás de uma há um carro e, das outras, duas cabras. Ele pede a você para escolher uma 
porta, você escolhe P,, mas essa não é aberta. Então, ele abre uma das outras duas portas e mostra uma cabra (ele sabe o que há 
atrás de cada porta). Então ele pergunta se você quer mudar sua escolha de porta. O que você faria? 
[Sugestão: solução informal: faça a árvore de possibilidades. Solução formal: seja G o evento: ganhar o carro, mudando sua 
escolha. Seja C, o evento: carro está atrás da porta P, i = 1,2,3 e seja H, o evento: apresentador abriu a porta P, i= 1, 2,3. 


Escreva G como uma reunião disjunta de dois eventos e use (5.8).] 


67. Defina a diferença simétrica entre os eventos Ae Bcomo AA B=(AºN B) U (AN BS9. Calcule P(A À B) para os eventos 
Ae B do Exemplo 5.7. 


Capítulo 6 


Variáveis Aleatórias Discretas 


6.1 Introdução 


No capítulo anterior, introduzimos alguns modelos probabilísticos por meio de espaços 
amostrais bem simples. Isso facilitou bastante a compreensão do conceito de probabilidade e a 
obtenção de algumas propriedades. Mas, para atender a situações práticas mais gerais, 
necessitamos ampliar esses conceitos para que tenhamos modelos probabilísticos que 
representem todos os tipos de variáveis definidas no Capítulo 2. Muito do que foi apresentado 
naquele capítulo para tratamento descritivo das variáveis terá o seu correspondente no modelo 
teórico. 

Para as variáveis qualitativas, a descrição de probabilidades associadas a eventos construída 
no capítulo precedente adapta-se muito bem. Dada a sua simplicidade, trataremos aqui de 
variáveis quantitativas discretas. Já os modelos para variáveis contínuas necessitarão de um 
artifício matemático, baseado em uma generalização do conceito de histograma, definido na 
Seção 2.3, e esse será o objetivo do próximo capítulo. A extensão dos modelos para várias 
variáveis será tratada no Capítulo 8. 

Por outro lado, quando estudamos a descrição de dados, vimos que os recursos disponíveis 
para a análise das variáveis quantitativas são muito mais ricos do que para as variáveis 
qualitativas. Isso sugere o uso de artifícios para transformar essas últimas variáveis naquelas do 
primeiro tipo. Por exemplo, considere o caso de um questionário em que uma pessoa é indagada 
a respeito de uma proposição, e as respostas possíveis são sim ou não. Podemos associar ao 
problema uma variável que toma dois valores, 1 ou 0, por exemplo, correspondentes às respostas 
sim ou não, respectivamente. Esse tipo de variável será estudado neste capítulo. 

O conhecimento de modelos probabilísticos para variáveis quantitativas é muito importante, e 
grande parte do restante deste livro será dedicada à construção desses modelos e inferências 
sobre seus parâmetros. Essas variáveis, para as quais iremos construir modelos probabilísticos, 
serão chamadas de variáveis aleatórias (v.a.). 


6.2 O Conceito de Variável Aleatória Discreta 
O conceito de v.a. discreta será introduzido por meio de um exemplo. 


Exemplo 6.1 Um empresário pretende estabelecer uma firma para montagem de um produto 
composto de uma esfera e um cilindro. As partes são adquiridas em fábricas diferentes (A e B), e 
a montagem consistirá em juntar as duas partes e pintá-las. O produto acabado deve ter o 
comprimento (definido pelo cilindro) e a espessura (definida pela esfera) dentro de certos limites, 


e isso só poderá ser verificado após a montagem. Para estudar a viabilidade de seu 
empreendimento, o empresário quer ter uma ideia da distribuição do lucro por peça montada. 

Sabe-se que cada componente pode ser classificado como bom, longo ou curto, conforme sua 
medida esteja dentro da especificação, maior ou menor que a especificada, respectivamente. 
Além disso, foram obtidos dos fabricantes o preço de cada componente ($ 5,00) e as 
probabilidades de produção de cada componente com as características bom, longo e curto. Esses 
valores estão na Tabela 6.1. 

Se o produto final apresentar algum componente com a característica C (curto), ele será 
irrecuperável, e o conjunto será vendido como sucata ao preço de $ 5,00. Cada componente 
longo poderá ser recuperado a um custo adicional de $ 5,00. Se o preço de venda de cada 
unidade for de $ 25,00, como seria a distribuição de frequências da variável X: lucro por 
conjunto montado? 


Tabela 6.1 Distribuição da produção das fábricas A e B, de acordo com as medidas das peças produzidas. 


Fábrica A | Fábrica B 


Fado Cilindro Esfera 


Dentro das especificações bom (B) 0,70 
Maior que as especificações longo (L) 0,20 
Menor que as especificações curto (C) 0,10 


Fonte: Retirada das especificações técnicas das fábricas A e B. 


A construção dessa distribuição de frequências vai depender de certas suposições que faremos 
sobre o comportamento do sistema considerado. Com base nessas suposições, estaremos 
trabalhando com um modelo da realidade, e a distribuição que obtivermos será uma distribuição 
teórica, tanto mais próxima da distribuição de frequências real quanto mais fiéis à realidade 
forem as suposições. 

Primeiramente, vejamos a construção do espaço amostral para a montagem dos conjuntos 
segundo as características de cada componente e suas respectivas probabilidades. Como os 
componentes vêm de fábricas diferentes, vamos supor que a classificação dos cilindros e a da 
esfera, segundo suas características, sejam eventos independentes. Obteremos a configuração da 
Figura 6.1. 

Uma representação do espaço amostral em questão está apresentada na Tabela 6.2 e foi obtida 
da Figura 6.1. 


Figura 6.1 Diagrama em árvore para o Exemplo 6.1. 


Cilindro Esfera 


Tabela 6.2 Distribuição de probabilidade das possíveis composições das montagens. 


Produto | Probabilidade | Lucro por montagem (X) 
BB 0,56 15 
BL 0,16 10 
BC 0,08 -5 
EB 0,07 10 
EL 0,02 5 
LG 0,01 -5 
CB 0,07 -5 
EL 0,02 -—5 
[6(6 0,01 -—5 


Fonte: Figura 5.1 e informações no texto. 


A última coluna da Tabela 6.2 foi construída com base nas informações sobre preços. Por 
exemplo, obtendo uma montagem LB (cilindro longo e esfera boa), do preço de venda $ 25,00 
devemos descontar: $ 10,00 dos custos dos componentes e $ 5,00 para recuperar o cilindro 
longo. Portanto, o lucro X desse conjunto será $ 10,00. Verifique os lucros das demais 
montagens. 

Com os dados da Tabela 6.2, vemos que X pode assumir um dos seguintes valores: 


15, se ocorrer o evento A, = (BB); 
10, se ocorrer o evento A, = (BL, LB); 
5, Se ocorrer 0 evento A, = (LL3; 
-5, Se ocorrer o evento A, = 1BC, LC, CB, CL, CC). 
Cada um desses eventos tem uma probabilidade associada, ou seja, 
P(A) = 0,56, P(A) = 0,23, 
P(A.) = 0,02, P(A,) = 0,19, 
o que nos permite escrever a função (x, p (x)) da Tabela 6.3, que é um modelo teórico para a 
distribuição da variável X, que o empresário poderá usar para julgar a viabilidade econômica do 


projeto que ele pretende realizar. Aqui, x é o valor da v.a. X e p(x) é a probabilidade de X tomar o 
valor x. Voltaremos a esse problema mais adiante. 


Tabela 6.3 Distribuição da v.a. X. 


A função (x, p (x)) é chamada função de probabilidade da v.a. X. Esquematicamente teremos a 
situação da Figura 6.2. 


Figura 6.2 Função de probabilidade da v.a. X = lucro por montagem. 


É evidente que, ao mesmo espaço amostral da Tabela 6.2, podemos associar outras variáveis 
aleatórias, como veremos a seguir. 


Exemplo 6.2 Se considerarmos Y como a variável “custo de recuperação de cada conjunto 
produzido”, verificaremos que Y irá assumir os valores 

O, se ocorrer o evento B, = (BB, BC, LC, CB, CL, CC); 

5, se ocorrer o evento B, = (BL, LB); 

10, se ocorrer o evento B, = (LL). 


A função de probabilidade da v.a. Y está representada na Tabela 6.4 e a Figura 6.3 representa a 
situação esquematicamente. 


Figura 6.3 Função de probabilidade da 
v.a. Y = custo de recuperação. 


Tabela 6.4 Distribuição da v.a. Y. 


Deduz-se do exposto que uma v.a. X, do tipo discreto, estará bem caracterizada se indicarmos 
os possíveis valores x,, x,, ..., X, -.. que ela pode assumir e as respectivas probabilidades p(x,), 
p(x5), -.., p(X,), .... ou seja, se conhecermos a sua função de probabilidade (x, p(x)). Também 
usaremos a notação p(x) = P(X = x). 

Em algumas situações, a determinação da função de probabilidade (f.p.) é bem mais simples. 
Isso pode ser verificado pelos dois exemplos seguintes. 


Exemplo 6.3 Voltemos à situação do Exemplo 5.10, em que consideramos duas extrações, sem 
reposição, de uma urna contendo duas bolas brancas e três bolas vermelhas. Definamos a v.a. X: 
número de bolas vermelhas obtidas nas duas extrações. Obtemos a Tabela 6.5 e a Figura 6.4. 


Tabela 6.5 Extrações sem reposição de urna com duas bolas brancas e três bolas vermelhas. 


Resultados | Probabilidades | X 
BB 1/10 0 
BV 3/10 1 
vB 3/10 1 
VV 3/10 2 


Fonte: Figura 6.4. 


Figura 6.4 Diagrama em árvore para o Exemplo 6.3. 


| E 
215 B 
315 “4 
e; 
V 


Vemos, pois, que a cada resultado do experimento está associado um valor da v.a. X, a saber, 
0,10u2. 
Temos que X = 0, com probabilidade 1/10, pois X = O se, e somente se, ocorre o resultado BB; 
X = 1 com probabilidade 3/10 + 3/10 = 6/10, pois X = 1 se, e somente se, ocorrem os resultados 
BV ou VB, que são mutuamente exclusivos; finalmente, X = 2 com probabilidade 3/10, pois X = 
2 se, e somente se, ocorre o resultado VV. Resumidamente, 
p(0) = P(X = 0) = P(BB) = 1/10, 
p(1) = P(X = 1) = P(BV ou VB) = 6/10, 
p(2) = P(X = 2) = P(VV) = 3/10. 
Na Tabela 6.6, apresentamos a distribuição de probabilidades da v.a. X. 


Tabela 6.6 Distribuição de probabilidades da v.a. X = número de bolas vermelhas. 


x | p(x) 


1/10 


[em] 


6/10 


psy 


No 


3/10 


Fonte: Tabela 6.5. 
Exemplo 6.4 Retomemos o Exemplo 5.3, em que consideramos o lançamento de uma moeda duas 
vezes. Definamos a v.a. Y: número de caras obtidas nos dois lançamentos. Temos, então: 
p(0) = P(Y = 0) = P(RR) = 1/4, 
p(1) = P(Y = 1)=P(CR ou RC) = 1/4+ 1/4 = 1/2, 
pQ)=P(Y=2)=P(CC)=1/4. 
Na Tabela 6.7 e na Figura 6.5, temos esquematizado o que ocorre e na Tabela 6.8 
apresentamos a distribuição de probabilidades de Y. 


Tabela 6.7 Lançamento de duas moedas. 


Resultados | Probabilidades 
Gê 1/4 2 
CR 1/4 1 
RC 1/4 1 
RR 1/4 0 
Figura 6.5 Diagrama em árvore para o Exemplo 6.4. 
o rasaE Res 
ai TER 
1/2 E ad - 
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Tabela 6.8 Distribuição da v.a. Y = número de caras. 
PG) 
1/4 
1/2 
1/4 


Fonte: Figura 6.5. 


Fonte: Tabela 6.7. 


Dos exemplos apresentados, vemos que, a cada ponto do espaço amostral, a variável sob 
consideração associa um valor numérico, o que corresponde em Matemática ao conceito de 
função, mais precisamente, a uma função definida no espaço amostral Q e assumindo valores 


reais. 


Definição. Uma função X, definida no espaço amostral 2 e com valores num conjunto enumerável 
de pontos da reta é dita uma variável aleatória discreta. 
Esquematicamente, teremos a situação da Figura 6.6. 


Figura 6.6 Definição de uma v.a. 


Vimos, também, como associar a cada valor x, da v.a. X sua probabilidade de ocorrência. Ela é 
dada pela probabilidade do evento A de 9, cujos elementos correspondem ao valor x, (veja 
Figuras 6.2 e 6.3). Matematicamente, podemos escrever 

P(X =x) = P(A), 


onde 


A=tw,o,..j; CO 
é tal que X(w;) =x, se w, E Ae X(w) Zx,sew, E Aí. 


Definição. Chama-se função de probabilidade da v.a. discreta X, que assume os valores x,, X,, ..., X,, 
-., à função ((x, p(x)), i = 1, 2, ...;, que a cada valor de x, associa a sua probabilidade de 
ocorrência, isto é, 

pOX)=P(X=x)=poi=1,2,.. 


1. Considere uma urna contendo três bolas vermelhas e cinco pretas. Retire três bolas, sem reposição, e defina a v.a. X igual ao 
número de bolas pretas. Obtenha a distribuição de X. 

2. Repita o problema anterior, mas considerando extrações com reposição. 

3. Suponha que uma moeda perfeita é lançada até que cara apareça pela primeira vez. Seja X o número de lançamentos até que 


isso aconteça. Obtenha a distribuição de X. (Observe que, nesse problema, pelo menos teoricamente, X pode assumir um 


número infinito de valores.) Veja também o Problema 55. 
4. Uma moeda perfeita é lançada quatro vezes. Seja Y o número de caras obtidas. Calcule a distribuição de Y. 


5. Repita o problema anterior, considerando agora que a moeda é viciada, sendo a probabilidade de cara dada porp,0<p<1,p 


Í 1/2. 
6. Generalize o Problema 5, para n lançamentos da moeda. 


6.3 Valor Médio de uma Variável Aleatória 
Vamos introduzir o conceito de valor médio por meio do seguinte exemplo. 


Exemplo 6.5 Uma pergunta que logo ocorreria ao empresário do Exemplo 6.1 é qual o lucro médio 
por conjunto montado que ele espera conseguir. Da Tabela 6.3, observamos que 56% das 
montagens devem produzir um lucro de 15 reais, 23% um lucro de dez reais, e assim por diante. 
Logo, o lucro esperado por montagem será dado por 


lucro médio = (0,56)(15) + (0,23)(10) + (0,02)(5) + (0,19)(-5) = 9,85. 


Isto é, caso sejam verdadeiras as suposições feitas para determinar a distribuição da v.a., o 
empresário espera ter um lucro de 9,85 reais por conjunto montado. 


Definição. Dada a v.a. X discreta, assumindo os valores x,, ..., x, chamamos valor médio ou 
esperança matemática de X ao valor 


E(X) = > xP E =) SE (6.1) 
1=1 i=1 


A Fórmula (6.1) é semelhante àquela utilizada para a média, introduzida no Capítulo 3, na 
qual no lugar das probabilidades p, tínhamos as frequências relativas f,. A distinção entre essas 
duas quantidades é que a primeira corresponde a valores de um modelo teórico pressuposto, e a 
segunda, a valores observados da variável. Como p, e f, têm a mesma interpretação, todas as 
medidas e gráficos discutidos no Capítulo 2, baseados na distribuição das f, possuem um 
correspondente na distribuição de uma v.a. Além do valor médio, ou simplesmente média, 
definido acima, podemos considerar também outras medidas de posição e variabilidade, como a 
mediana e o desvio padrão. Veja a Seção 6.8 para a definição da mediana de uma v.a. discreta. 
Vamos considerar agora a definição de variância. 


Definição. Chamamos de variância da v.a. X o valor 
Var(X) = 5 [x — EF p;. (6.2) 
151 


O desvio padrão de X, DP(X), é definido como a raiz quadrada positiva da variância. 


Exemplo 6.6 Deixamos a cargo do leitor verificar que, no caso do problema do empresário, 
teremos: 
(1) Var(X) = 57,23; 
(ii) DP(X) = 7,57; 
(iii) gráfico de (x, p(x)): Figura 6.7. 


Figura 6.7 Gráfico de p(x): distribuição da v.a. X = lucro por montagem. 
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Observação. Até agora, consideramos o caso em que a v.a. X pode assumir um número finito de 
valores. Mas uma v.a. discreta X pode assumir um número infinito, porém enumerável, de 
valores, x,, ..., X, -.., com probabilidades p,, ..., P,, ..., tal que cada p,> O e a soma de todos os p, 
seja 1, ou seja, 5,» =1.. Veja o Problema 3. Nesse caso, a definição de esperança deve ser 
modificada. A soma na Fórmula (6.1) é uma “soma infinita”, que temos de supor que seja 
“convergente”. 


7. Obtenha a média e a variância da v.a. X dos Problemas 1 e 2. 
8. Obter a média e a variância da v.a. Y do Problema 4. 


6.4 Algumas Propriedades do Valor Médio 
Retomemos o Exemplo 6.1 para ilustrar algumas propriedades da média de uma v.a. 


Exemplo 6.7 Suponha que todos os preços determinados pelo empresário do Exemplo 6.1 
estivessem errados. Na realidade, todos os valores deveriam ser duplicados, isto é, custos e 
preços de venda. Isso corresponde à transformação Z = 2X. As probabilidades associadas à v.a. Z 
serão as mesmas da v.a. X, pois cada valor de X irá corresponder a um único valor de Z. Na 
Tabela 6.9, temos a distribuição de Z. 

O valor médio da v.a. Z é obtido por 

E(Z)= 5 zp(2) = (2x) p(x,) = 19,70. 

Suponha, agora, que queiramos a distribuição da v.a. W = X?. Baseados na Tabela 6.3, 

obtemos a Tabela 6.10. 


Tabela 6.9 Distribuição da variável aleatória Z = 2X. 


x |2=2x| p(7)=p(x) |Z: plz) 


15 30 0,56 16,80 
10 20 0,23 4,60 
5 10 0,02 0,20 
=5" || =0 0,19 -1,90 


Total — 1,00 19,70 


Fonte: Tabela 6.3. 


Tabela 6.10 Distribuição da variável aleatória W = Xº. 


w- p(w) 
126,00 
23,00 
5,25 
Total | 1,00 | 154,25 


Fonte: Tabela 6.3. 


Observe que o evento (W = 25) ocorre quando (X = 5 ou X = —5), portanto P(W = 25) = P(X 
=5)+ P(X = —5) = 0,02 + 0,19 = 0,21. Segue-se que a média de W é 


E(W) = Lwp(w)) = (225)(0,56) + (100)(0,23) + (25)(0,21) 
= (225)(0,56) + (100)(0,23) + t(25)(0,02) + (25)(0,19)3 
= 1x2 p(x;) = 154,25. 


Quanto às esperanças de Z e W, transformadas de X, é fácil ver que elas podem ser escritas por 
meio da f.p. de X. 


Definição. Dada a v.a. discreta X e a respectiva função de probabilidade p(x), a esperança 
matemática da função h(X) é dada por 


ELhQO] = Lhe )p(x). (6.3) 
As seguintes propriedades podem ser facilmente demonstradas (veja o Problema 45): 
(a) Se h(X) = aX + b, onde a e b são constantes, então 
E(aX + b) = aE(X) + b, (6.4) 
Var(aX + b) = aºVar(X). (6.5) 
(D) Var(O = EMO) - [EQOP = E 2º, p(x) - [Ex p(x)P. (6.6) 
A Fórmula (6.6) deve ser usada para facilitar o cálculo da variância. 


Observação. A propriedade (6.4) não vale, em geral, para funções não lineares. Veja o Problema 
58. 


Exemplo 6.8 Usando os resultados dos Exemplos 6.5 e 6.7, obtemos 
Var(X) = 154,25 - (9,85)? = 57,283. 


Observação. Usaremos os símbolos abaixo para indicar a média e a variância de uma v.a. X: 


EQO = n(X), 
Var(X) = (3), 


ou, simplesmente, | e 02, respectivamente, se não houver possibilidade de confusão. 


6.5 Função de Distribuição Acumulada 


No Capítulo 2, demos a definição de função de distribuição acumulada ou empírica para um 
conjunto de n observações. O equivalente teórico para variáveis aleatórias é definido a seguir. 


Definição. Dada a variável aleatória X, chamaremos de função de distribuição acumulada (f.d.a.), 
ou simplesmente função de distribuição (f.d.) F(x) à função 


F() = P(X <>). (6.7) 


Observe que o domínio de F é todo o conjunto dos números reais, ao passo que o 
contradomínio é o intervalo [0,1]. 


Exemplo 6.9 Voltando ao problema do empresário e usando a f.p. de X definida na Tabela 6.3, a 
f.d.a. de X será dada por 
0, sex <-S5 
0,19, se-5sx<s5 
F(x) = 10,21, seSsx<10 
0,44, sel0s x<15 
I, sex = 15, 


cujo gráfico está na Figura 6.8. 


Figura 6.8 f.d.a. para a v.a. X = lucro por montagem. 


E > 10 150 


Observe que P(X = x) é igual ao salto que a função F(x) dá no ponto x; por exemplo, P(X = 
10) = 0,23 = F(10) - F(10-). De modo geral, P(X = x) = F(x;) - F(x,—), em que lembramos que 
F(a-) = lim, . , F(x). Observe, também, que o conhecimento de F(x) é equivalente ao 
conhecimento da f.p. de X. 


Problemas 


9. No Problema 1, obtenha as distribuições das v.a. 3X e x. 
10. Considere o lançamento de três moedas. Se ocorre o evento CCC, dizemos que temos uma sequência, ao passo que se ocorre 


o evento CRC temos três sequências. Defina a v.a. X = número de caras obtidas e Y = número de sequências, isso para cada 


resultado possível. Assim, X (CRR) = 1 e Y(CRR) = 2. Obtenha as distribuições de X e Y. Calcule E(X), E(Y), Var(X) e Var(Y). 
11. Suponha que a v.a. V tem a distribuição seguinte: 


Obtenha E(V) e Var(V). 


12. Seja X com distribuição dada abaixo; calcule E(X). Considere a v.a. (X - a)? e calcule E(X - a)? paraa =0,1/4, 1/2, 3/4, 1. 
Obtenha o gráfico de E(X - a)? = g(a). 
Para qual valor de a, g(a) é mínimo? 


13. Um vendedor de equipamento pesado pode visitar, num dia, um ou dois clientes, com probabilidade de 1/3 ou 2/3, 
respectivamente. De cada contato, pode resultar a venda de um equipamento por $ 50.000,00 (com probabilidade 1/10) ou 
nenhuma venda (com probabilidade 9/10). Indicando por Y o valor total de vendas diárias desse vendedor, escreva a função de 
probabilidade de Y e calcule o valor total esperado de vendas diárias. 

14. Calcule a variância da v.a. Y definida no Problema 13. 

15. Obter a f.d.a. para a v.a. V do Problema 11. Faça seu gráfico. 

16. Calcule a f.d.a. da v.a. Y do Problema 10 e faça seu gráfico. 

17. O tempo T, em minutos, necessário para um operário processar certa peça é uma v.a. com a seguinte distribuição de 


probabilidade. 
2 3 4 5 6 Vá 
0,1/0,1/0,3/0,2/0,2]0,1 


Para cada peça processada, o operário ganha um fixo de $ 2,00, mas, se ele processa a peça em menos de seis minutos, ganha $ 
0,50 em cada minuto poupado. Por exemplo, se ele processa a peça em quatro minutos, recebe a quantia adicional de $ 1,00. 


1709) 


(a) Calcule o tempo médio de processamento. 


(b) Encontre a distribuição, a média e a variância da v.a. G: quantia em $ ganha por peça. 
18. Sabe-se que a v.a. X assume os valores 1, 2 e 3 e que sua f.d.a. F(x) é tal que 


Fy-Fajy=1, 
Fo)- Fo )=16, 
Fa) - Fes )= 12. 
Obtenha a distribuição de X, a f.d.a. F(x) e os gráficos respectivos. 
19. Obtenha a f.d.a. F(t) da v.a. T do Problema 17. 


6.6 Alguns Modelos Probabilísticos para Variáveis Aleatórias 
Discretas 


Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos. 
Portanto, um estudo pormenorizado dessas variáveis é de grande importância para a construção 
de modelos probabilísticos para situações reais e a consequente estimação de seus parâmetros. 
Para algumas dessas distribuições existem tabelas que facilitam o cálculo de probabilidades, em 
função de seus parâmetros. Nesta seção, iremos estudar alguns desses modelos, procurando 
enfatizar as condições em que eles aparecem, suas funções de probabilidade, parâmetros e como 
calcular probabilidades. 


6.6.1 Distribuição Uniforme Discreta 


Este é o caso mais simples de v.a. discreta, em que cada valor possível ocorre com a mesma 
probabilidade. 


Definição. A v.a. discreta X, assumindo os valores x,, ..., x, tem distribuição uniforme se, e 
somente se, 


| 
PMX=x)=p(x)=p “ ã (6.8) 


para todo i = 1,2,....,k. 
É fácil verificar que 


EX)= ED (6.9) 
Var(X) = De - (Zal), (6.10) 


e que a função de distribuição acumulada é dada por 
Lo n(x) 
Fg=> +=", 
x 2a = (6.11) 


em que n(x) é o número de x, < x (veja a Figura 6.9). 


Figura 6.9 Distribuição uniforme discreta. 
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Exemplo 6.10 Seja X a v.a. que indica o “número de pontos marcados na face superior de um dado”, 
quando ele é lançado. Obtemos na Tabela 6.11 a distribuição de X. Temos, também, 


EW)=1/6(1+2+3+4+5+6)=21/6=3,5, 
Var(X) = 1/6 ((1+4+... +36) -(21)/6) = 35/12= 2,9. 


Tabela 6.11 Número de pontos no lançamento de um dado. 


x 1 2 3 4 5 6 | Total 


p(x) | 1/6 |1/6|1/6/1/6]1/6]1/6| 1,0 


6.6.2 Distribuição de Bernoulli 


Muitos experimentos são tais que os resultados apresentam ou não uma determinada 
característica. Por exemplo: 


(1) uma moeda é lançada: o resultado ou é cara, ou não (ocorrendo, então, coroa); 

(2) um dado é lançado: ou ocorre face 5 ou não (ocorrendo, então, uma das faces 1, 2, 3, 4 ou 
6); 

(3) uma peça é escolhida ao acaso de um lote contendo 500 peças: essa peça é defeituosa ou 
não; 

(4) uma pessoa escolhida ao acaso dentre 1.000 é ou não do sexo masculino; 

(5) uma pessoa é escolhida ao acaso entre os moradores de uma cidade e verifica-se se ela é 
favorável ou não a um projeto municipal. 


Em todos esses casos, estamos interessados na ocorrência de sucesso (cara, face 5 etc.) ou 
fracasso (coroa, face diferente de 5 etc.). Essa terminologia (sucesso e fracasso) será usada 
frequentemente. 

Para cada experimento acima, podemos definir uma v.a. X, que assume apenas dois valores: 1, 
se ocorrer sucesso, e 0, se ocorrer fracasso. Indicaremos por p a probabilidade de sucesso, isto é, 
P(sucesso) = P(S)=p,0<p<1. 

Definição. A variável aleatória X, que assume apenas os valores O e 1, com função de probabilidade 
(x, p(x)) tal que 
p= PX=0)=1-p, 
p(1)=P(X=1)=p, 
é chamada variável aleatória de Bernoulli. 
Então, segue-se facilmente que 


E(X) = p; (6.12) 
Var(X) = p-p?=p(1 - p), (6.13) 


0, sex <0 
F(xw)=41-p, se0O<xx<l 


I, sex 21. 
Na Figura 6.10, temos representadas as f.p. e f.d.a. de X. 


Figura 6.10 Distribuição de Bernoulli (a) f.p. (b) f.d.a. 
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Exemplo 6.11 Vamos supor o caso do experimento (2). Supondo o dado perfeito, teremos P(X = 0) 
= 5/6, P(X = 1) = 1/6, 
E(X) = 1/6, Var(X) = (1/6) (5/6) = 5/36. 
Observação. Experimentos que resultam numa v.a. de Bemoulli são chamados ensaios de 
Bernoulli. Usaremos a notação 
X - Ber(p) 
para indicar uma v.a. com distribuição de Bernoulli com parâmetro p. 


6.6.3 Distribuição Binomial 


Imagine, agora, que repetimos um ensaio de Bernoulli n vezes, ou, de maneira alternativa, 
obtemos uma amostra de tamanho n de uma distribuição de Bernoulli. Suponha ainda que as 
repetições sejam independentes, isto é, o resultado de um ensaio não tem influência nenhuma no 
resultado de qualquer outro ensaio. Uma amostra particular será constituída de uma sequência de 
sucessos e fracassos, ou, alternativamente, de uns e zeros. Por exemplo, repetindo um ensaio de 


Bernoulli cinco vezes (n = 5), um particular resultado pode ser FSSFS ou a quíntupla ordenada 
(0, 1, 1, 0, 1). Usando a notação da Seção 6.6.2, com P(S) = p, a probabilidade de tal amostra 
será 


1 - ppp( -p)p =p“ - pj. 
O número de sucessos nessa amostra é igual a 3, sendo 2 o número de fracassos. 
Considere agora as seguintes situações, obtidas de (1) a (5) da seção anterior: 


(1º) uma moeda é lançada três vezes; qual é a probabilidade de se obter duas caras? 

(2º) um dado é lançado cinco vezes; qual é a probabilidade de se obter face 5 no máximo três 
vezes? 

(3º) dez peças são extraídas, ao acaso, com reposição, de um lote contendo 500 peças; qual é a 
probabilidade de que todas sejam defeituosas, sabendo-se que 10% das peças do lote são 
defeituosas? 

(4º) cinco pessoas são escolhidas ao acaso entre 1.000; qual é a probabilidade de que duas 
sejam do sexo masculino? 

(5”) sabe-se que 90% das pessoas de uma cidade são favoráveis a um projeto municipal. 
Escolhendo-se 100 pessoas ao acaso entre os moradores, qual é a probabilidade de que pelo 
menos 80 sejam favoráveis ao projeto? 


Observe que, nos casos (4”) e (57), o fato de estarmos extraindo indivíduos de um conjunto 
muito grande implica que podemos supor que as extrações sejam praticamente independentes. 


Exemplo 6.12 Consideremos a situação (1º), supondo que a moeda seja “honesta”, isto é, P(sucesso) 
= P(cara) = 1/2. Indiquemos o sucesso (cara) por S e fracasso (coroa), por F. Então, estamos 
interessados na probabilidade do evento 
A=SSF,SFS, FSS+, 
ou, em termos da notação anterior, na probabilidade de 
A=((1,1,0), (1,0, 1), (0, 1, 1). 
É claro que P(A) = P(SSF) + P(SFS) + P(FSS) e, devido à independência dos ensaios, 
Lá 


P(SSF) = -* 2% P(SES) = P(FSS), 


e, portanto, 
3 
P(A) =. 
Se a probabilidade de sucesso forp,0<p<1,eP(F)=1-p=q, então 
P(SSF)=pxpxq=p'xq=P(SFS)=P(FSS), 
de modo que 
P(A) = 3p'q. 

Uma característica interessante dos experimentos considerados é que estamos interessados 
apenas no número total de sucessos e não na ordem em que eles ocorrem. Podemos construir a 
Tabela 6.12 para n = 3 lançamentos da moeda, com P(S) =p, P((F)=1-p=q,a partir da Figura 
6.11. 


Vamos designar por X o número total de sucessos em n ensaios de Bernoulli, com 
probabilidade de sucesso p, O <p < 1. Os possíveis valores de X são 0, 1,2,..., ne os pares (x, 


p(x)), em que p(x) = P(X = x), constituem a chamada distribuição binomial. 


Figura 6.11 Probabilidades binomiais para n = 3 e P(S) = p. 


Tabela 6.12 Probabilidades binomiais para n = 3 e P(S) = p. 


Número de sucessos | Probabilidades | p= 1/2 
0 q 1/8 
1 3pq? 3/8 
2 3p'q 3/8 
3 p 1/8 


Fonte: Figura 6.11. 


Para o exemplo (1º) acima, n= 3 e p = 1/2, obtemos a distribuição dada pela primeira e 
terceira colunas da Tabela 6.12 e o gráfico da Figura 6.12. 


Figura 6.12 Gráfico da f.p. p(x) paran=3 ep = 1/2. 
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Obtenhamos, agora, P(X = k), ou seja, numa sequência de n ensaios de Bernoulli, a 
probabilidade de obter k sucessos (e portanto n - k fracassos), k = 0,1,2, ..., n, com P(S) = p, P(F) 
=1-p=gq. Uma particular sequência é 

SSS ... SFF ... F, 
em que temos k sucessos seguidos por n - k fracassos. A probabilidade de tal sequência é 


PG =p)" -*= p'g" -*, (6.14) 
devido à independência dos ensaios. Mas qualquer sequência com k sucessos e n - k fracassos 


terá a mesma probabilidade (6.14). Portanto resta saber quantas sequências com a propriedade 
especificada podemos formar. E fácil ver que existem 


A 
kl kWn-k)! 


tais sequências, de modo que 


P(X=k= [a )ptarsa = 0,1,..,n. (6.15) 
As probabilidades (6.15) também serão indicadas por b(k; n, p) e, quando a v.a. X tiver 
distribuição binomial com parâmetros n e p, escreveremos 
X- b(n, p). 
Exemplo 6.13 Vamos considerar a situação (3) acima. Temos n = 10 ensaios de Bernoulli, cada um 
com P(S) = P(peça defeituosa) = p = 0,1. Se X indicar o número de peças defeituosas na amostra, 
queremos calcular P(X = 10) = b(10; 10, 1/10). Por (6.15), obtemos 
(10 
10 


P(X = 10) R| Jonoronor = (1/10)º = 1/10"º. 


A média e a variância de uma v.a. binomial, com parâmetros n e p são dadas, respectivamente, 
por 


E(X) = np, (6.16) 
Var(X) = npq. (6.17) 


Veja o Problema 41 e as Seções 8.3 e 8.4. 
Para o Exemplo 6.13 temos 


l 
E(X) =10x — =1, 
(X) “To 


Var(X) = 10x o Ea = o: 

As probabilidades binomiais b(k; n, p) são facilmente calculadas em programas estatísticos, 
como o Minitab e o SPlus, ou planilhas, como o Excel, ou então são dadas por tabelas 
especialmente construídas, para diferentes valores de n e p. A Tabela I fornece essas 


probabilidades para valores de n = 2,3, ..., 19 e alguns valores de p. 
Exemplo 6.14 Usando (6.15) e a Tabela I, ou com a ajuda de um computador, obtemos 


20 
b(17; 20;0,9) = be Jos, IP = 0,19. 


No Capítulo 7 e na Seção 6.6.5, veremos duas maneiras de calcular valores aproximados para 
as probabilidades binomiais para n grande. 
Para finalizar, vamos formalizar os principais pontos apresentados nesta seção. 


Definição. Chama-se de experimento binomial ao experimento 
(a) que consiste em n ensaios de Bernoulli; 
(b) cujos ensaios são independentes; e 
(c) para o qual a probabilidade de sucesso em cada ensaio é sempre iguala p,0<p<1. 


Definição. A variável aleatória X, correspondente ao número de sucessos num experimento 
binomial, tem distribuição binomial b(n, p), com função de probabilidade 
b(k;n,p)=P(X =kin,p)= b Jpraro =0,1..,n: (6.18) 


Na Seção 6.9, veremos como podemos obter os valores b(k; n, p), para n e p dados, usando um 
pacote estatístico. 


6.6.4 Distribuição Hipergeométrica 


Essa distribuição é adequada quando consideramos extrações casuais feitas sem reposição de 
uma população dividida segundo dois atributos. Para ilustrar, considere uma população de N 
objetos, r dos quais têm o atributo A e N - r têm o atributo B. Um grupo de n elementos é 
escolhido ao acaso, sem reposição. Estamos interessados em calcular a probabilidade de que esse 
grupo contenha k elementos com o atributo A. Pode-se ver facilmente, utilizando o princípio 
multiplicativo, que essa probabilidade é dada por 

r[N-r 
E | n-—k ] 


p= —+, (6.19) 


N 
n ] 
em que max(0, n- N+r)<k < min(r, n). 
Os pares (k, p,) constituem a distribuição hipergeométrica de probabilidades. Se definirmos a 
v.a. X como o número de elementos na amostra que têm o atributo 4, então P(X = k) = p,. 


Exemplo 6.15 Em problemas de controle de qualidade, lotes com N itens são examinados. O número 
de itens com defeito (atributo A), r, é desconhecido. Colhemos uma amostra de n itens e 
determinamos k. Somente para ilustrar, suponha que num lote de N = 100 peças, r = 10 sejam 
defeituosas. Escolhendo n = 5 peças sem reposição, a probabilidade de não se obter peças 


defeituosas é 
(10/90 90 
Los) (5) 
P="n00) = (100) 0% 
E) 6) 
enquanto a probabilidade de se obter pelo menos uma defeituosa é 
DFD t ss HDS 1-p, 0,426. 


Pode-se demonstrar que a v.a. X definida acima tem esperança e variância dadas por 
E(X) = np, (6.20) 
Var(X) = np(l- p) a, (6.21) 


respectivamente, em que p = r/N é a probabilidade de se obter uma peça defeituosa numa única 
extração. Se N for grande, quando comparado com n, então extrações com ou sem reposição 
serão praticamente equivalentes, de modo que as probabilidades dadas por (6.19) serão 
aproximadamente iguais às dadas pela Fórmula (6.15), isto é, p, = b(k; n, p). Do mesmo modo, 
os resultados (6.20) e (6.21) serão aproximadamente iguais aos valores correspondentes da 
distribuição binomial (note que N -n = N-1,sen << N. Denotaremos uma v.a. com 
distribuição hipergeométrica por 


X- hip(N, r, n). 


6.6.5 Distribuição de Poisson 


A Tabela I fornece os valores de b(k; n, p) para n = 2, ..., 19. Para n grande e p pequeno, 
podemos aproximar essas probabilidades por 


ada 228 = 0,L..,n (6.22) 


As probabilidades (6.22), calculadas agora para todos os valores inteiros não negativos k = 0, 
1, 2,..., constituem a chamada distribuição de Poisson, tabelada na Tabela II, para alguns valores 
de À = np. A aproximação 


MEnpis €Timpr. (6.23) 


é boa se n for grande e p pequeno e de tal sorte que np < 7. Ver o Problema 43 para uma sugestão 
de como provar (6.23). 

As probabilidades dadas por (6.23) podem, também, ser obtidas em aplicativos estatísticos ou 
planilhas, assim como a binomial. 


Exemplo 6.16 Consideremos aproximar b(2; 1.000, 0,0001), usando (6.23). Temos que np = 0,1, 
logo 


-0,1 2 
b(2;1.000, 0,0001) = el 


= 0,0045. 

Observemos que as probabilidades (6.23) estão definidas para qualquer inteiro não negativo k. 
Contudo, observando a Tabela II, vemos que essas probabilidades decaem à medida que k cresce 
e, normalmente, são desprezíveis para k maior do que 5 ou 6. 

A distribuição de Poisson é largamente empregada quando se deseja contar o número de 
eventos de certo tipo que ocorrem num intervalo de tempo, ou superfície ou volume. São 
exemplos: 

(a) número de chamadas recebidas por um telefone durante cinco minutos; 

(b) número de falhas de um computador num dia de operação; e 

(c) número de relatórios de acidentes enviados a uma companhia de seguros numa semana. 

De modo geral, dizemos que a v.a. N tem uma distribuição de Poisson com parâmetro À > 0 se 

es 


PN=k= q k=0,1,2,.. (6.24) 


É fácil verificar que E(N) = Var(N) = À (veja o Problema 46); logo, À representa o número 
médio de eventos ocorrendo no intervalo considerado. 

Uma suposição que se faz usualmente em relação à distribuição de Poisson é que a 
probabilidade de se obter mais de um evento num intervalo muito pequeno é desprezível. 


Exemplo 6.17 Uma situação prática de interesse na qual a distribuição de Poisson é empregada diz 
respeito à desintegração de substâncias radioativas. Considere o urânio 238 (U2), por exemplo. 
Cada núcleo de U? tem uma probabilidade muito pequena, 4,9 x 107º de se desintegrar, 
emitindo uma partícula a, em um segundo. Considere, agora, um número grande n de núcleos e a 
v.a. N = número de núcleos que se desintegram. Admitindo-se que a desintegração de um núcleo 
não afeta a probabilidade de desintegração de qualquer outro núcleo (independência), a v.a. N 
tem uma distribuição binomial, com parâmetros n e p, este dado pelo valor acima. Logo, estamos 
numa situação em que podemos usar (6.23), ou seja, aproximar probabilidades binomiais por 
probabilidades de Poisson. 


Em 0,30 mg de UZ temos aproximadamente n = 7,6 x 10” átomos (Helene; Vanin, 1981), 
logoh=np=3,7e 


e» (3, 7 y 
k! 


Por exemplo, P(N = 0) = 0,025 e P(N = 2) = 0,169. Pode-se ver que P(N > 19) é muito 
pequena, menor do que 10º. 


P(N=k)= k=0,1,.. 


Tabela 6.13 Frequências observadas e esperadas para o Exemplo 6.17. 


k ny; npy 
0 57 54,399 
1 203 210,523 
2 383 407,361 
3 525 525,496 
4 532 508,418 
5 408 393,515 
6 273 253,817 
7 | 139 140,325 
8 45 67,882 
9 27 29,189 
>10 | 16 17,075 

2.608 2.608,000 


Seria interessante avaliar se a distribuição de Poisson realmente é um modelo razoável para 
essa situação. Um experimento devido a Rutherford e Geiger (veja Feller, 1964, p. 149, para a 
referência completa sobre esse experimento) de fato comprova essa adequação. Eles observaram 
os números de partículas a emitidas por uma substância radioativa em n = 2.608 intervalos de 7,5 
segundos. A Tabela 6.13 apresenta os números n, de intervalos de 7,5 segundos contendo k 
partículas. Uma estimativa de À = número médio de partículas emitidas durante um intervalo de 
7,5 segundos é dada por 


Se considerarmos ocorrências de eventos em intervalos de tempo de comprimento t, no lugar 
de intervalo unitário de tempo, basta ajustar o parâmetro À na Fórmula (6.24). Vejamos um 
exemplo. 

As probabilidades de Poisson são dadas por 


“IS 
“o 


Segue-se que np, é o número esperado de intervalos contendo k partículas, e esses valores 
também estão apresentados na Tabela 6.13. Vemos que há uma boa coincidência entre os valores 
das duas colunas. Um teste formal pode ser feito para verificar a adequação da distribuição de 
Poisson. Veja o Capítulo 14, Exemplo 14.5. 


P, sk =0,1,2,... 


Exemplo 6.18 Um telefone recebe, em média, cinco chamadas por minuto. Supondo que a 
distribuição de Poisson seja adequada nessa situação, obter a probabilidade de que o telefone não 
receba chamadas durante um intervalo de um minuto. 

Segue-se que A =5e 


Por outro lado, se quisermos a probabilidade de obter no máximo duas chamadas em quatro 
minutos, teremos À = 20 chamadas em quatro minutos, logo 


P(N<9)=P(N=0)+P(N=1)+P(N=2)=e2(1+20+ 200) = 221€?, 


que é um número muito próximo de zero. 
Esse exemplo nos mostra que a probabilidade de k ocorrências num intervalo fixo de 
comprimento t pode ser escrita como 


em (MY 
qu="7 


P(N=k)= E=01Za (6.25) 


em que À representa o número médio de ocorrências naquele intervalo. Denotaremos uma v.a. N 
com distribuição de Poisson de parâmetro À por 


N - Pois(A). 
Apresentamos, na Tabela 6.14, um resumo das distribuições discretas estudadas neste capítulo. 
Para cada uma temos a fórmula que dá a probabilidade de assumir cada valor, os possíveis 


valores, os parâmetros que caracterizam cada distribuição, a média e a variância. Incluímos, 
também, a distribuição geométrica, tratada no Problema 55. 


Tabela 6.14 Modelos para variáveis discretas. 


Modelo P(X=x) Parâmetros E(X), Var(X) 
Bernoulli p(-p)-*x=0,1 p Pp, p(1-p) 
Binomial np, np(1 —p) 
Poisson AA 
Geométrica z R q TP) 
ae . 
E r rWN-n 
Hipergeométrica nf a)! E ml T=1 ) 


Va = max(0, n— N +), b = min(r, n). 


Problemas 


20. Para os exercícios (a) a (e) abaixo, considere o enunciado: 
Das variáveis abaixo descritas, assinale quais são binomiais, e para essas dê os respectivos campos de definição e função de 
probabilidade. Quando julgar que a variável não é binomial, aponte as razões de sua conclusão. 

(a) De uma urna com dez bolas brancas e 20 pretas, vamos extrair, com reposição, cinco bolas. X é o número de bolas brancas 
nas cinco extrações. 
(b) Refaça o problema anterior, mas dessa vez as n extrações são sem reposição. 
(c) Temos cinco urnas com bolas pretas e brancas e vamos extrair uma bola de cada urna. Suponha que X seja o número de 
bolas brancas obtidas no final. 
(d) Vamos realizar uma pesquisa em dez cidades brasileiras, escolhendo ao acaso um habitante de cada uma delas e 
classificando-o em pró ou contra um certo projeto federal. Suponha que X seja o número de indivíduos contra o projeto no final 
da pesquisa. 
(e) Em uma indústria existem 100 máquinas que fabricam determinada peça. Cada peça é classificada como boa ou defeituosa. 
Escolhemos ao acaso um instante de tempo e verificamos uma peça de cada uma das máquinas. Suponha que X seja o número 


de peças defeituosas. 
21. Se X- b(n, p), sabendo-se que E(X) = 12 e O? = 3, determinar: 
(a) n 
(b) p 
(c) P(X < 12) 
(d) P(X 2 14) 
(e) E(Z) e Var(Z), em que Z = (X - 12)/43 
(f) P(Y 2 14/16), em que Y= Xn 


(9) P(Y > 12/16), em que Y= X/n 
22. Numa central telefônica, o número de chamadas chega segundo uma distribuição de Poisson, com a média de oito chamadas 
por minuto. Determinar qual a probabilidade 
de que num minuto se tenha: 

(a) dez ou mais chamadas; 

(b) menos que nove chamadas; 

(c) entre sete (inclusive) e nove (exclusive) chamadas. 
23. Num certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de um por 2.000 pés. Qual a probabilidade de que 
um rolo com 2.000 pés de fita magnética tenha: 

(a) nenhum corte? 

(b) no máximo dois cortes? 

(c) pelo menos dois cortes? 
24. Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso é de 0,2. Se dez itens produzidos 
por essa máquina são selecionados ao acaso, qual é a probabilidade de que não mais do que um defeituoso seja encontrado? Use a 
binomial e a distribuição de Poisson e compare os resultados. 
25. Examinaram-se 2.000 ninhadas de cinco porcos cada uma, segundo o número de machos. Os dados estão representados na 
tabela abaixo. 


Nº de Machos | Nº de Ninhadas 
0 20 

360 

700 

680 

200 

40 
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Total 2.000 


(a) Calcule a proporção média de machos. 


(b) Calcule, para cada valor de X, o número de ninhadas que você deve esperar se X — b(5, p), em que p é a proporção média 
de machos calculada em (a). 


26. Se X tem distribuição binomial com parâmetros n = 5 e p = 1/2, faça os gráficos da distribuição de X e da f.d.a. F(x). 


27. Considere, agora, n = 5 e p = 1/4. Obtenha o gráfico da distribuição de X. Qual a diferença entre esse gráfico e o 
correspondente do Problema 26? O que ocasionou a diferença? 


28. Refaça o Problema 26, comn = Ge p = 1/2. 


6.7 O Processo de Poisson 


No Exemplo 6.17 acima, vimos uma aplicação importante da distribuição de Poisson ao 
problema da desintegração radioativa. Lá tratamos da emissão de partículas alfa em intervalos de 
7,5 segundos. Ou seja, estamos contando o número de ocorrências de um evento ao longo do 
tempo. Na realidade, consideramos o que se chama um processo estocástico. Designando-se por 
N, o número de partículas emitidas no intervalo [0, t), obteremos o que se chama de processo de 


Poisson, para todo t > 0. Nesta seção, iremos partir de algumas suposições que consideramos 


plausíveis sobre tal processo e mostrar que a distribuição da variável aleatória N, para cada t > 0, 
é dada pela Fórmula (6.25). 
As suposições que iremos admitir como válidas são as seguintes. 


(S1) N, = 0, ou seja, o processo começa no instante zero com probabilidade um: P(N, = 0) = 1. 

(S2) Os números de eventos em intervalos de tempo disjuntos são v.a. independentes. 
Considere O<t<t+s, N, como antes e N,, - N, o número de eventos no intervalo [t, t + s). 
Então, estamos supondo que as v.a. N,e N,,, - N, são independentes. Dizemos que o processo tem 
incrementos independentes. 

(S3) Considere os intervalos [0, t) e [s, s + t), de mesmo comprimento t e as v.a. N, como antes 
e M, = número de eventos no intervalo [s, s + t). Então, para todo s > 0, as v.a. N,e M, têm a 
mesma distribuição de probabilidades. Ou seja, a distribuição do número de eventos ocorridos 


num intervalo depende somente do comprimento do intervalo, e não de sua localização. Dizemos 
que o processo tem incrementos estacionários. 


(S4) Para h suficientemente pequeno, P(N, = 1) = Ah, com À > 0, constante. Ou seja, num 


intervalo pequeno, a probabilidade de ocorrência de um evento é proporcional ao comprimento 
do intervalo. 


(S5) Para h como em (S4), P(N, > 2) = 0. Isso nos diz que a probabilidade de se ter dois ou 
mais eventos num intervalo suficientemente pequeno é desprezível. 

Considere o intervalo [0, t) e o divida em subintervalos de comprimento t/n, como na Figura 
6.13. 


Figura 6.13 Divisão de intervalo [0, t) em subintervalos de comprimentos t/n. 


Chamemos de Y a v.a. que dá os números de subintervalos com um evento. Então, Y é uma 
v.a. com distribuição binomial, de parâmetros n (número total de subintervalos) e p = P (um 
evento) = A(t/n). Para n grande, usando a aproximação da seção anterior, temos que essa variável 
pode ser aproximada por uma v.a. com distribuição de Poisson com parâmetro np = nA(t/n) = At. 
Note que aqui usamos as suposições S2 (cada subintervalo contém um evento, 
independentemente dos demais intervalos) e S3 (com a mesma probabilidade). 

Pela suposição S5, a probabilidade de que cada subintervalo contenha dois ou mais eventos 
tende a zero, quando n cresce. Logo, N, é uma v.a. com distribuição de Poisson, com parâmetro 
At. 

Uma prova um pouco mais rigorosa, usando derivadas, pode ser dada. Veja Meyer (1965). 


6.8 Quantis 


No Capítulo 3, estudamos os quantis associados a um conjunto de dados. Esses poderiam ser 
chamados de quantis empíricos, pois podemos agora considerar quantis associados à distribuição 
de uma v.a. discreta, que poderíamos denominar quantis teóricos. 


Definição. O valor Q(p) satisfazendo 
P(X<Qp)>peP(X>Q(p)>1-p, (6.26) 


para O <p < 1, é chamado o p-quantil de X. 

A interpretação do p-quantil é similar à que foi dada no caso de um conjunto de dados: Q(p) é 
o valor tal que a soma das probabilidades dos valores menores do que ele, é p. Então, por que 
não defini-lo por F(Q(p)) = P(X < Q(p)) = p, em que F(x) é a f.d.a. de X? A resposta será dada 
acompanhando os exemplos a seguir. 

Para determinados valores de p teremos, como antes, denominações especiais. Por exemplo: 


Q, = Q(0,25): primeiro quartil 
Q, = Q(0,5): mediana ou segundo quartil 
Q, = Q(0,75): terceiro quartil. 
Vejamos o caso da mediana, Q(0,5) = Md. Por (6.26) devemos ter 
P(X < Md) >0,5e P(X> Md) > 0,5. (6.27) 
Suponha a v.a. X com a distribuição: 


TRE 


pG) | 1/3 | 2/3 


Então Md = 1, pois P(X<1)=1/3+2/3=1>12eP(X>D)=P(X=1)=2/3>1/2. 
Na Figura 6.14, temos a f.d.a. de X. Sabemos que 


0 x<0 
F(x)=41/3, 0<x<l 
I, E sra 


de modo que não existe algum valor x tal que F(x) = 0,5, o que ilustra por que não podemos 
definir a mediana por meio de F(Md) = 0,5. 


Figura 6.14 f.d.a. da v.a. X. 
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Por outro lado, considere a v.a. Y com a distribuição da tabela abaixo: 


Y|-1]0 1 


p(G) | 1/4 |1/4/1/2 


Então, qualquer valor Md entre O e 1 é uma mediana, pois 
P(Y<Md)=P(Y=-D)+P(Y=0)=12>12€ 
P(Y>Md)=P(Y=1)=1/2>1/2. 

A f.d.a. de Y está na Figura 6.15. Observe que O e 1 também são medianas. Observe, também, 
que Q(0,75) = 1, pois 
P(X<1)=1>p=0,75, 


P(X>1)=0,5>1-p=0,25. 
Novamente, não há nenhum valor de y tal que F(y) = 0,75. Mostre que Q(0,90) também é igual 
al. 


Figura 6.15 f.d.a. da v.a. Y. 
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6.9 Exemplos Computacionais 


No R, é possível obter a função de probabilidade (ou densidade), a função de distribuição 
acumulada e os quantis de uma variável aleatória. Por exemplo, para uma variável aleatória com 
distribuição binomial, podemos utilizar os seguintes comandos: 


dbinom (x, size, prob, log = FALSE) 

pbinom (q, size, prob, lower.tail = TRUE, log.p = FALSE) 

qbinom (p, size, prob, lower.tail = TRUE, log.p = FALSE) 

rbinom (n, size, prob) 

Principais argumentos: 

x: valor observador para o qual se deseja calcular o valor da distribuição 
q : vetor de quantis 

p: vetor de probabilidades 

n: Número de observações a serem simuladas 

size : parâmetro da distribuição: número de ensaios 

prob : parâmetro da distribuição: probabilidade de sucesso de cada ensaio 
lower.tail : Variável TRUE/FALSE. Se TRUE, P[X < x] para TRUE e P[X > x]. 


Com relação à nomenclatura, note que no exemplo anterior, a referência à distribuição é 
sempre precedida de uma letra, d para densidade, p para função distribuição, q para quantis e r 
para simulação. Dessa forma, se quisermos simular uma distribuição de Poisson, o comando será 
rpois (...), para acessar os quantis de uma distribuição geométrica, qgeom (...) e assim por diante. 

Além do R, outros pacotes podem ser usados para gerar probabilidades e probabilidades 
acumuladas, quantis etc., para os modelos mais importantes discutidos neste capítulo. 


Exemplo 6.19 Consideremos a v.a X com distribuição binomial, com parâmetros n=14 e 
p=P(sucesso)=0,3. Os comandos no R abaixo geram P(X=k), para k=0,1,...,12 , e P(X< x) para 
x=0,1,...12. No Quadro 6.1 temos essas probabilidades, mas geradas pelo Minitab, que fornece 
os mesmos valores, por meio dos comandos PDF e CDF. 

x<-0:12 


px<-dbinom(x, size=14, p=0.3) 
fdax<-cumsum(px) 


quadro61<-data.frame(x, px, fdax) 


Quadro 6.1 Probabilidades binomiais geradas pelo Minitab. 


MTB > PDF; MTB > CDF; 


SUBC> Binomial 14 0.3. SUBC> Binomial 14 0.3. 
Probability Density Function Cumulative Distribution Function 
Binomial with n = 14 and p = 0.300000 Binomial with n = 14 and p = 0.300000 


xP(x=x)xP(X=x)xP(X <= x) x P(X <= x) 0 0.0068 7 0.0618 0 0.0068 6 0.9067 
10.0407 8 0.0232 1 0.0475 7 0.9685 

2 0.1134 9 0.0066 2 0.1608 8 0.9917 

3 0.1943 10 0.0014 3 0.3552 9 0.9983 

4 0.2290 11 0.0002 4 0.5842 10 0.9998 

5 0.1963 12 0.0000 5 0.7805 11 1.0000 

6 0.1262 


Para um v.a X com distribuição de Poisson, com parâmetro À = 5, 2, teremos os comandos no 
R: 


x<-0:17 
px<-dpois(x, lambada,=5.2) 


fdax<-cumsum(px) 


quadro62<-data.frame(x, px, fdax) 


No Quadro 6.2 obtemos as mesmas probabilidades, via Minitab. 


Quadro 6.2 Probabilidades de Poisson geradas pelo Minitab. 


MTB > PDF; MTB > CDF; 


SUBC> Poisson 5.2. SUBC> Poisson 5.2. 
Probability Density Function Cumulative Distribution Function 


Poisson with mu = 5.20000 Poisson with mu = 5.20000 
xP(x=x)xP(x=x)xP(X<=x)xP(X <=) 
O 0.0055 9 0.0423 0 0.0055 9 0.9603 

1 0.0287 10 0.0220 1 0.0342 10 0.9823 

2 0.0746 11 0.0104 2 0.1088 11 0.9927 

3 0.1293 12 0.0045 3 0.2381 12 0.9972 

4 0.1681 13 0.0018 4 0.4061 13 0.9990 

5 0.1748 14 0.0007 5 0.5809 14 0.9997 

6 0.1515 15 0.0002 6 0.7324 15 0.9999 

7 0.1125 16 0.0001 7 0.8449 16 1.0000 

8 0.0731 17 0.0000 8 0.9181 


6.10 Problemas Suplementares 


29. Um florista faz estoque de uma flor de curta duração que lhe custa $ 0,50 e que ele vende a $ 1,50 no primeiro dia em que a 
flor está na loja. Toda flor que não é vendida nesse primeiro dia não serve mais e é jogada fora. Seja X a variável aleatória que 
denota o número de flores que os fregueses compram em um dia casualmente escolhido. O florista descobriu que a função de 
probabilidade de X é dada pela tabela abaixo. 


o doa 
p)|0,1/04]0,3]0,2 


Quantas flores deveria o florista ter em estoque a fim de maximizar a média (valor esperado) do seu lucro? 
30. As cinco primeiras repetições de um experimento custam $ 10,00 cada. Todas as repetições subsequentes custam $ 5,00 cada. 
Suponha que o experimento seja repetido até que o primeiro sucesso ocorra. Se a probabilidade de sucesso de uma repetição é 
igual a 0,9, e se as repetições são independentes, qual é o custo esperado da operação? 
31. Na manufatura de certo artigo, é sabido que um entre dez dos artigos é defeituoso. Qual a probabilidade de que uma amostra 
casual de tamanho quatro contenha: 

(a) nenhum defeituoso? 


(b) exatamente um defeituoso? 

(c) exatamente dois defeituosos? 

(d) não mais do que dois defeituosos? 
32. Um fabricante de peças de automóveis garante que uma caixa de suas peças conterá, no máximo, duas defeituosas. Se a caixa 
contém 18 peças, e a experiência tem demonstrado que esse processo de fabricação produz 5% das peças defeituosas, qual a 
probabilidade de que uma caixa satisfaça a garantia? 
33. Um curso de treinamento aumenta a produtividade de uma certa população de funcionários em 80% dos casos. Se dez 
funcionários quaisquer participam desse curso, encontre a probabilidade de: 

(a) exatamente sete funcionários aumentarem a produtividade; 

(b) não mais do que oito funcionários aumentarem a produtividade; e 

(c) pelo menos três funcionários não aumentarem a produtividade. 


34. O número de petroleiros que chegam a uma refinaria em cada dia ocorre segundo uma distribuição de Poisson, com A=2.As 
atuais instalações podem atender, no máximo, a três petroleiros por dia. Se mais de três aportarem num dia, o excesso é enviado a 
outro porto. 
(a) Em um dia, qual a probabilidade de se enviar petroleiros para outro porto? 
(b) De quanto deverão ser aumentadas as instalações para permitir atender a todos os navios que chegarem pelo menos em 
95% dos dias? 
(c) Qual o número médio de petroleiros que chegam por dia? 
35. Na tabela abaixo, X significa número de filhos homens em famílias com 12 filhos. Calcule para cada valor da variável o 


número de famílias que você deveria esperar se X — b(12; 0,5). 


Nº observado de famílias 
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Você acha que o modelo binomial é razoável para explicar o fenômeno? 

36. Houve uma denúncia por parte dos operários de uma indústria de que, toda vez que ocorria um acidente em uma seção da 
indústria, ocorriam outros em outras seções mais ou menos no mesmo horário. Em outras palavras, os acidentes não estavam 
ocorrendo ao acaso. Para verificar essa hipótese, foi feita uma contagem do número de acidentes por hora durante um certo 
número de dias (24 horas por dia). Os resultados da pesquisa foram apresentados no quadro a seguir. 


Nº de acidentes por hora | Nº de horas 


0 200 


oJI OSDir ÇwNAa 


(a) Calcule o número médio de acidentes por hora nessa amostra. 

(b) Se o número de acidentes por hora seguisse uma distribuição de Poisson, com média igual à que você calculou, qual seria o 

número esperado de dias com 0, 1, 2, ... etc. acidentes? 

(c) Os dados revelam que a suspeita dos operários é verdadeira? 
37. Determinado tipo de parafuso é vendido em caixas com 1.000 peças. É uma característica da fabricação produzir 10% com 
defeito. Normalmente, cada caixa é vendida por $ 13,50. Um comprador faz a seguinte proposta: de cada caixa, ele escolhe uma 
amostra de 20 peças; se a caixa não tiver parafusos defeituosos, ele paga $ 20,00; um ou dois defeituosos, ele paga $ 10,00; três 
ou mais defeituosos, ele paga $ 8,00. Qual alternativa é a mais vantajosa para o fabricante? Justifique. 
38. Uma certa região florestal foi dividida em 109 quadrados para estudar a distribuição da espécie Primula simenses selvagem. 
Supomos que a distribuição de Poisson seja adequada nessa situação. A tabela abaixo indica o número de quadrados com X 
Primulas. O número médio de plantas por quadrado foi de 2,2. 


X plantas por quadrado | Nº de quadrados com X plantas 
0 26 
1 21 
2 23 
3 14 
4 . 
E) 4 
6 5 
Vá 4 
8 ]. 
acima de 8 0 


(a) Se as plantas realmente distribuem-se segundo uma distribuição de Poisson, qual a probabilidade de encontrarmos pelo 
menos duas Primulas? 
(b) Dê as frequências esperadas para os valores de X = 0,X=1eX=2. 
(c) Apenas comparando os resultados de (b) com as frequências observadas, qual a conclusão a que você chegaria? 
(d) Quais as causas que você daria para a conclusão? 
39. Uma fábrica produz válvulas, das quais 20% são defeituosas. As válvulas são vendidas em caixas com dez peças. Se uma 
caixa não tiver nenhuma defeituosa, seu preço de venda é $ 10,00; tendo uma, o preço é $ 8,00; duas ou três, o preço é $ 6,00; 
mais do que três, o preço é $ 2,00. Qual o preço médio de uma caixa? 
40. Um industrial fabrica peças, das quais 1/5 são defeituosas. Dois compradores, A e B, classificaram as partidas adquiridas em 
categorias I e II, pagando $ 1,20 e $ 0,80 respectivamente do seguinte modo: 
Comprador A: retira uma amostra de cinco peças; se encontrar mais que uma defeituosa, classifica como II. 
Comprador B: retira amostra de dez peças; se encontrar mais que duas defeituosas, classifica como II. 
Em média, qual comprador oferece maior lucro? 
41. Se X” b(n, p), prove que E(X) = np e Var(X) = npq. 
(Sugestão: calcule E(X) e Var(X) para n = 1,2, ...etc.) 
42. Aceitação de um lote. Suponha que um comprador queira decidir se vai aceitar ou não um lote de itens. Para isso, ele retira 
uma amostra de tamanho n do lote e conta o número x de defeituosos. Se x < a, o lote é aceito, e se x > a, o lote é rejeitado; o 
número a é fixado pelo comprador. Suponha que n = 19 e a = 2. Use a Tabela I a fim de encontrar a probabilidade de aceitar o 
lote, ou seja, P(X < 2) para as seguintes proporções de defeituosos no lote: 
(a) p = 0,10 (b) p = 0,20 (c) p = 0,05 


43. Prove que, quando n > 00 ep > 0, mas de tal sorte que np > À, temos 
n mt er. 
(o) a did 
Sugerimos que você use o fato: ( - à) —> e» quandon > 00, 
n 


44. Suponha que X seja uma v.a. discreta, com f.p. p(x) = 2%, x = 1, 2,... Calcule: 
(a) P(X ser par) (b) P(X < 3) (c) P(X > 10) 
45. Prove (6.4), (6.5) e (6.6). 


46. Prove que E(X) = Var(X) = À, se a P(X = k) for dada por (6.24). 
47. Prove a relação (6.19). 


48. Num teste tipo certo/errado, com 50 questões, qual é a probabilidade de que um aluno acerte 80% das questões, supondo que 
ele as responda ao acaso? 

49. Repita o Problema 48, considerando cinco alternativas para cada questão. 

50. Em um experimento binomial com três provas, a probabilidade de exatamente dois sucessos é 12 vezes a probabilidade de 
três sucessos. Encontre p. 

51. No sistema abaixo, cada componente tem probabilidade p de funcionar. Supondo independência de funcionamento dos 
componentes, qual a probabilidade de: 


(a) o sistema funcionar? 

(b) o sistema não funcionar? 

(c) exatamente dois componentes funcionarem? 

(d) pelo menos cinco componentes funcionarem? 
52. Prove que 


(n-k)p 
(k+1)(1= p) 


b(k+l;n,p) = b(k;n,p). 


53. Encontre a mediana da v.a. Z com distribuição 


54. Encontre os quantis de ordens p = 0,25, 0,60, 0,80 da v.a. Z do exercício 53. 


55. (Meyer, 1965). O custo de realização de um experimento é $ 1.000,00. Se o experimento falha, um custo adicional de $ 
300,00 tem de ser imposto. Se a probabilidade de sucesso em cada prova é 0,2, se as provas são independentes e continuadas até a 
ocorrência do primeiro sucesso, qual o custo esperado do experimento? 

56. Use o (6.28) para verificar as relações entre: 


(a) E(eN e EE); 
(b) E(log X) e log [E(X)], para X > 0; 
(c) E(U/X) e 1/E(X), para X É 0. 


6.11 Complementos Metodológicos 


1. Distribuição Geométrica. Suponha que, ao realizar um experimento, ocorra o evento A com probabilidade p ou não ocorra A 


(ou seja, ocorre AS com probabilidade 1 - p). Repetimos o experimento de forma independente até que o evento A ocorra pela 
primeira vez. 


Seja X = número de repetição do experimento até que se obtenha A pela primeira vez. Então, 


Sd pad. Ela 
P(A ==(1-p) Dj =1,2,9, ..., 
pois se X = j, nas primeiras j - 1 repetições A não ocorre, ocorrendo na j - ésima. 


(a) Prove que bt P(X=j)=1 
Jet 
(b) Mostre que E(X) = 1/p e Var(X) = (1 - py/p?. 


a ar : E o d 
[ Sugestão: E(X)=> jp(X=j)= PS j(1-p) : =P>. a?!» com |- p=q,) 
Jet Jet jet 


(c) Se s e t são inteiros positivos, então 
PX>s+X>s=PX>t. 
Essa propriedade nos diz que a distribuição geométrica não tem memória. Essa propriedade é compartilhada pela distribuição 


exponencial, a ser estudada no Capítulo 7. 
2. Distribuição de Pascal. Considere a mesma situação experimental do Problema 55, só que agora o experimento é continuado 


até que o evento À ocorra pela r-ésima vez. Defina a v.a. Y = número de repetições necessárias para que A ocorra exatamente r 
vezes. Note que, se r = 1, obtemos a distribuição geométrica. Mostre que 
P(Y=j)= E jr, =r,r +... 
r- 
3. A Desigualdade de Jensen. Vimos, na fórmula (6.4), que se h(x) = ax + b, então E[h(X)] = h[E(X)], ou seja, E(aX + b) = 


aE(X) + b. 
Esta fórmula pode não valer se h(x) não for linear. O que vale é o seguinte resultado, denominado Desigualdade de Jensen. Se 
h(x) for uma função convexa e X uma v.a., então 


EthçÃy > htEÇR], (6.28) 
com igualdade se e somente se h for linear (ou se a variância de X for zero). 
Por exemplo, se h(x) = x?, então E(X?) > [E(X)]?, do que decorre que Var(X) = E(X?) - [EGO] > 0. 
Lembremos que uma função h é convexa se h((x + y)/2) < (h(x) + h(y)/2, para todo par x, y no domínio de h. Em termos 
geométricos, h é convexa se o ponto médio da corda que une dois pontos quaisquer da curva representando h está acima da curva. 


A função h é côncava se -h for convexa. Por exemplo, log x é uma função côncava. 


Capítulo 7 


Variáveis Aleatórias Contínuas 


7.1 Introdução 


Neste capítulo, iremos estudar modelos probabilísticos para variáveis aleatórias contínuas, ou 
seja, variáveis para as quais os possíveis valores pertencem a um intervalo de números reais. A 
definição dada no capítulo anterior, para v.a. discreta, deve ser modificada como segue. 


Definição. Uma função X, definida sobre o espaço amostral Q e assumindo valores num intervalo 
de números reais, é dita uma variável aleatória contínua. 

No Capítulo 2 vimos alguns exemplos de variáveis contínuas, como o salário de indivíduos, 
alturas etc. A característica principal de uma v.a. contínua é que, sendo resultado de uma 
mensuração, o seu valor pode ser pensado como pertencendo a um intervalo ao redor do valor 
efetivamente observado. Por exemplo, quando dizemos que a altura de uma pessoa é 175 cm, 
estamos medindo sua altura usando cm como unidade de medida e, portanto, o valor observado 
é, na realidade, um valor entre 174,5 cm e 175,5 cm. 

Vejamos um exemplo para motivar a discussão que se segue. 


Exemplo 7.1 O ponteiro dos segundos de um relógio mecânico pode parar a qualquer instante, 
devido a algum defeito técnico, ou término da bateria, e vamos indicar por X o ângulo que esse 
ponteiro forma com o eixo imaginário passando pelo centro do mostrador e pelo número XII, 
conforme mostra a Figura 7.1. 


Tabela 7.1 Distribuição uniforme discreta. 


x 0º 6º 12º | 18º | | 348º | 354º 
p(x) | 1/60 | 1/60 | 1/60 | 1/60 |... | 1/60 | 1/60 
Figura 7.1 Ilustração de uma v.a. X discreta. 
e bom 
Pd Xu 
/ X 
270º +IX + 90º 
SI. 
180º 


Medindo esse ângulo X em graus e lembrando que: 


(i) o ponteiro deve dar 60 “saltos” (ele dá um salto em cada segundo) para completar uma 
volta; 


(ii) acreditamos que o ponteiro tenha probabilidade igual de parar em qualquer ponto, então, a 
v.a. X tem distribuição uniforme discreta, com função de probabilidade dada pela Tabela 7.1 
e representada graficamente na Figura 7.2. 


Figura 7.2 Distribuição uniforme discreta. 


plx) 4 
L6o ? e . . . . 
- ! r -— 
0 e 12º 18º 348º 354º x(em graus) 


Considerando esse mesmo problema com um relógio elétrico, para o qual o ponteiro dos 
segundos move-se continuamente, necessitamos de um outro modelo para representar a v.a. X. 
Primeiro, observamos que o conjunto dos possíveis valores de X não é mais um conjunto discreto 
de valores, pois X pode assumir qualquer valor do intervalo [0,360) = (x & E0<x< 360+. Em 
segundo lugar, como no caso do relógio mecânico, continuamos a acreditar que não exista uma 
região de preferência para o ponteiro parar. Como existem infinitos pontos nos quais o ponteiro 
pode parar, cada um com igual probabilidade, se fôssemos usar o mesmo método usado para a 
v.a. discreta uniforme, cada ponto teria probabilidade de ocorrer igual a zero. Assim não tem 
muito sentido falar na probabilidade de que o ângulo X seja igual a certo valor, pois essa 
probabilidade sempre será igual a zero. Entretanto, podemos determinar a probabilidade de que X 
esteja compreendido entre dois valores quaisquer. Por exemplo, usando a Figura 7.1 como 
referência, a probabilidade de o ponteiro parar no intervalo compreendido entre os números XII e 
HI é 1/4, pois esse intervalo corresponde a 1/4 do intervalo total. 

Podemos, pois, escrever 


POÍsX <90))=4. 


Do mesmo modo, a probabilidade P(120º < X < 150º) = 1/12. Por menor que seja o intervalo, 
sempre poderemos calcular a probabilidade de o ponteiro parar num ponto qualquer desse 
intervalo. E é fácil verificar que, nesse caso, dados dois números a e b, tais que 0º <a<b< 3608, 
a probabilidade de X E [a, b) é 


P(asX <b)= a 
Por meio da divisão do intervalo [0º, 360º) em pequenos subintervalos, podemos construir um 
histograma para as probabilidades da v.a. X (como fizemos para v.a contínuas no Capítulo 2). Ou 
ainda, como naquele capítulo, fazendo esses intervalos tenderem a zero, podemos construir o 
histograma alisado da v.a. X, apresentado na Figura 7.3. 


Figura 7.3 Histograma alisado: distribuição uniforme contínua. 


O histograma alisado da Figura 7.3 corresponde à seguinte função: 


0, sex<0Í 
F(x)= ma se 0) < x <360/ 
jo, se x = 360/. 


Como vimos na construção de histogramas, a área correspondente ao intervalo [a, b) 
(hachurada na Figura 7.3) deve indicar a probabilidade de a variável estar entre a e b. 
Matematicamente, isso é expresso por meio da integral da função entre a e b; então, 

l b-a 
P(asX <b)=f f(x)de=f de= 000 
pois a integral definida de uma função entre dois pontos determina a área sob a curva 
representativa da função, compreendida entre esses dois pontos. 


A função f(x) é chamada função densidade de probabilidade (f.d.p.) da v.a. X. 


Podemos construir modelos teóricos para variáveis aleatórias contínuas, escolhendo 
adequadamente as funções densidade de probabilidade. Teoricamente, qualquer função f, que 
seja não negativa e cuja área total sob a curva seja igual à unidade, caracterizará uma v.a. 
contínua. 


Exemplo 7.2 Se f(x) = 2x, para O < x < 1, e zero fora desse intervalo, vemos que f(x) > 0, para 
qualquer x, e a área sob o gráfico de f(x) é unitária (verifique na Figura 7.4). Logo, a função f 
pode representar a função densidade de uma v.a. contínua X. 


Figura 7.4 f.d.p. da v.a. X do Exemplo 7.2. 


Para esse caso, P(0 < X< 1/2) é igual à área do triângulo de base 1/2 e altura 1, hachurado na 
Figura 7.4; logo, a probabilidade em questão é 
| | 


P(0<X <1/2)= 3(2)-5 


Observamos, então, que a probabilidade de essa v.a. assumir um valor pertencente ao intervalo 
[0, 1/2) é menor que a probabilidade de a variável assumir um valor pertencente ao intervalo 
[1/2, 1). 

A comparação das funções densidade dos dois últimos exemplos ajuda a entender seu 
significado. No primeiro exemplo, consideremos dois intervalos, 1, = [a, b) e 1, = [c, d), contidos 
no intervalo [0,360), com a mesma amplitude (b - a = d - c); então, 


PXEI)=PXEL). 


O mesmo não acontece no segundo exemplo: dados dois intervalos de mesma amplitude, 
aquele mais próximo de 1 irá apresentar maior probabilidade. Ou seja, a probabilidade de que a 
v.a. X assuma um valor num intervalo de amplitude fixa depende da posição do intervalo; 
existem regiões com maior chance de ocorrer, e o que determina esse fato é a função densidade 
de probabilidade. Portanto, a f.d.p. é um indicador da concentração de “massa” (probabilidade) 


nos possíveis valores de X. Convém ressaltar ainda que f(x) não representa a probabilidade de 
ocorrência de algum evento. A área sob a curva entre dois pontos é que irá fornecer a 
probabilidade. 


1. Dada a função 


(a) Mostre que esta é uma f.d.p. 
(b) Calcule a probabilidade de X > 10. 


2. Uma v.a. X tem distribuição triangular no intervalo [0, 1] se sua f.d.p. for dada por 


0, x<0 

Cx, 0sxsl/2 
Sea C(1-x), [2=x=s1 

0, x>1. 


(a) Qual valor deve ter a constante C? 
(b) Faça o gráfico de fo). 
(c) Determine P(X < 1/2), P(X > 1/2) eP(1/4< X< 3/4). 
3. Suponha que estamos atirando dardos num alvo circular de raio 10 cm, e seja X a distância do ponto atingido pelo dardo ao 
centro do alvo. A f.d.p. de X é 
ke, se0sxsio 


Ho 


(a) Qual a probabilidade de acertar o centro do alvo, se esse for um círculo de 1 cm de raio? 
(b) Mostre que a probabilidade de acertar qualquer círculo concêntrico é proporcional à sua área. 
4. Encontre o valor da constante c se 


para os demais valores. 


cjx?, xz10 
0, x<lo 


1()-| 


for uma densidade. Encontre P(X > 15). 


7.2 Valor Médio de uma Variável Aleatória Contínua 
Do que foi visto até aqui, deduz-se que qualquer função f(:), não negativa, tal que 
é fl)de=1, 


define uma v.a. contínua X, ou seja, cria um modelo teórico para as frequências relativas de uma 
v.a. contínua. A área compreendida entre dois valores, a e b, da abscissa x, sob a curva 
representativa de f(x), dá a probabilidade (proporção teórica) da variável pertencer ao intervalo 
limitado pelos dois valores. Usando o conceito de integral, podemos escrever 


P(asX sb)= fº f(x)de. (7.1) 


Vejamos agora como podemos definir a esperança (valor médio ou média) de uma v.a. 
contínua. Para isso, usaremos um artifício semelhante àquele usado na Seção 3.1 para calcular a 
média das variáveis quantitativas, com os dados agrupados em classes. Lá, substituímos todos os 
valores de um intervalo (classe) por um único valor aproximado (o ponto médio do intervalo), e 
agimos como se a variável fosse do tipo discreto. Aqui, iremos repetir esse artifício. 

Consideremos a v.a. X com função densidade f(x) e dois pontos a e b, bem próximos, isto é, h 
=b- a é pequeno, e consideremos x, o ponto médio do intervalo [a, b]. Observando a Figura 7.5 


é fácil verificar que 
P(a<X<b)Í h fx, (7.2) 


o que significa aproximar a área da parte hachurada pelo retângulo de base h e altura f(x,). É fácil 
ver que a aproximação melhora com h tendendo a zero. 


Figura 7.5 Área hachurada representa P(a < X < b). 


fO) 


A a * B & 
beho 


Dividamos agora o intervalo [A, B], em que f(x) > 0, em n partes de amplitudes iguais a h = (B 
- A)/n (Figura 7.6) e consideremos os pontos médios desses intervalos, X,, X,,..., X,. 


Figura 7.6 Partição do intervalo [A, B]. 


flo) t 
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Aa fehiol SD * 


Consideremos a v.a. Y,, assumindo os valores x,,..., x, com as probabilidades 
p= P(Y,=x) E fogh. 
Dessa maneira, e de acordo com a definição de esperança, temos 
E()=D p= 5x4 (x), 
1=1 = 
que será uma aproximação da esperança E(X). Para determinar E(X) com maior precisão, 


podemos aumentar o número de intervalos, diminuindo sua amplitude h. No limite, quando h > 
0, teremos o valor de E(X). Definamos, pois, 


E(X)=limE(Y,)= tim 5x,/ (5 Ja. (7.3) 


Mas da definição de integral (veja Morettin et al., 2005), temos que, se o limite (7.3) existe, 
ele define a integral de x f(x) entre A e B, isto é, 


E(x)=] xf(x)de. (7.4) 


Exemplo 7.3 Continuando com o Exemplo 7.2, observamos que, dividindo o intervalo [0, 1] em n 
subintervalos, teremos h = 1/n, x, = (2i -1)/2n e f(x) = Qi - 1)n, i = 1, 2,..., n. Portanto, 


E(£)= Ee ls E! = as Sei 7 


É n(2n+1)(2n-1) 124 apre | 
E 5a 3 io 61 n PN n) 
na qual usamos o conhecido resultado que dá a soma dos quadrados dos primeiros n números 


ímpares. Logo, 


O mesmo resultado é obtido diretamente da relação (7.4): 
E(x)- flkega [5] 2. 


Exemplo 7.4 No caso do relógio elétrico do Exemplo 7.1, obtemos 


2 0 
X)-f; cs [505 2 [a ai 
que é o valor esperado devido à distribuição uniforme das frequências teóricas. 
Como a função f(x) é sempre não negativa, podemos escrever a esperança como 
E(X)=[ xf(x)de. (7.5) 


A extensão do conceito de variância para v.a. contínuas é feita de maneira semelhante e o 
equivalente à Fórmula (6.2) é 


Var(X) = Ef (x -E(x)) |- * (x- E(xX)) y(x) de. (7.6) 


Exemplo 7.5 Para os dois exemplos vistos anteriormente, teremos: 
(i) para o caso do relógio, 


E 


ar(X) = fo (x-180) Prep de =) EM e + 1802x] = 10.800; 
(ii) para o Exemplo 7.2, 
TAM E X 4 227 1 
Var(X) = f(x-5) Qua = 2/5 5 | == 


Como no caso de v.a. discretas, o desvio padrão de uma v.a. contínua X é definido como 
DP(X) = JVar(X), (7.7) 
que é dado na mesma unidade de medida do que X. Deixamos a cargo do leitor a verificação de 
que o seguinte resultado vale, como consequência de (7.6): 
Var(X) = E(X?) - [E(X)J>. (7.8) 
Como frisamos no Capítulo 6, frequentemente usaremos outros símbolos para indicar os 
parâmetros discutidos, a saber: 


E(X) = p(X), 
Var(X) = 0X), 
DP(X) = o(X), 


ou simplesmente q, 0? e 0, respectivamente, se não houver possibilidade de confusão. 


7.3 Função de Distribuição Acumulada 


Dada uma v.a. X com função densidade de probabilidade f(x), podemos definir a sua função de 
distribuição acumulada, F(x), do mesmo modo como foi definida no Capítulo 6: 


F() = P(X <x),-0 <x<oo. (7.9) 


De (7.1) segue-se que 
F(x)=[" f(t)de, (7.10) 
para todo real x. 
Exemplo 7.6 Retomemos o Exemplo 7.2. Temos 


0, sex <0 


F(x)= fo zudt =, se0Osx<l 
fo 2udt + fiOdt = 1, sex zl. 
O gráfico de F(x) está na Figura 7.7. 


Figura 7.7 f.d.a. da v.a. X do Exemplo 7.6. 


De (7.9), vemos que O < F(x) < 1, para todo x real; além disso, F(x) é não decrescente e possui 
as duas seguintes propriedades: 


(1) lim... F(X)=0, 
(ii) lim, .. F(X)=1. 


No Exemplo 7.6, temos, efetivamente, F(x) = 0, parax< 0 e F(x) = 1, para x > 1. 
Para v.a. contínuas, o seguinte resultado é importante. 


Proposição 7.1 Para todos os valores de x para os quais F(x) é derivável temos 


rt) = TEL 16) 


Vamos usar esse resultado no exemplo a seguir. 


Exemplo 7.7 Suponha que 


0, sex<0 
F(x)= | 
l-e*, sex z0 
seja a f.d.a. de uma v.a. X. Então, 
0, sex<0 
fa) ” es, sex = 0. 
Na Figura 7.8, temos os gráficos dessas duas funções. Veremos que f(x) é um caso especial da 
densidade exponencial, a ser estudada na Seção 7.4.3. 


Figura 7.8 Distribuição exponencial (B = 1) (a) f.d.a. (b) f.d.p. 


mr 
o 
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(b) 


Se a e b forem dois números reais quaisquer, 
P(a<X<b)=F(b)-F(a). (7.11) 


Esse resultado não será afetado se incluirmos ou não os extremos a e b na desigualdade entre 
parênteses. 


5. Calcule a esperança, a variância e a f.d.a. da v.a. X do Problema 2. 
6. Determine a esperança e a variância da v.a. cuja f.d.p. é 
senx, 0Sx<sm/2 


HOR 


caso contrítio. 
7. Calcule a média da v.a. X do Problema 4. 

8. A v.a. contínua X tem f.d.p. 

3x?, -Isx<o0 


f()= e 


(a) Se b for um número que satisfaz -1 < b <0, calcule P(X >b | X< b/2). 


(b) Calcule E(X) e Var(x). 
9. Certa liga é formada pela mistura fundida de dois metais. A liga resultante contém certa porcentagem de chumbo, X, que pode 
ser considerada uma v.a. com f.d.p. 


caso contrítio. 


f(x)= S10:5x(100 - x),0 <x< 00. 


Suponha que L, o lucro líquido obtido na venda dessa liga (por unidade de peso), seja dado por L = Cj + C5X. Calcule E(L), (o) 
lucro esperado por unidade. 
10. A demanda diária de arroz num supermercado, em centenas de quilos, é uma v.a. com f.d.p. 
2x/3, se0<sx<l 
f(x)=4-x/3+1, selsx<3 
0, sex<0Ooux>3. 


(a) Qual a probabilidade de se vender mais do que 150 kg, num dia escolhido ao acaso? 

(b) Em 30 dias, quanto o gerente do supermercado espera vender? 

(c) Qual a quantidade de arroz que deve ser deixada à disposição dos clientes diariamente para que não falte arroz em 95% dos 
dias? 


11. Suponha que X tenha f.d.p. 169) do Problema 1. Calcule E(X) e Var(X). 


12. Seja X com densidade 
c(l-x?), se-Isxsil 
0, caso contrítio. 


rt)=| 


Calcule a média e a variância de X. 


7.4 Alguns Modelos Probabilísticos para Variáveis Aleatórias 
Contínuas 


De modo geral, podemos dizer que as v.a. cujos valores resultam de algum processo de 
mensuração são v.a. contínuas. Alguns exemplos são: 

(a) o peso ou a altura das pessoas de uma cidade; 

(b) a demanda diária de arroz num supermercado; 

(c) o tempo de vida de uma lâmpada; 

(d) o diâmetro de rolamentos de esferas; e 

(e) erros de medidas em geral, resultantes de experimentos em laboratórios. 


Dada uma v.a. contínua X, interessa saber qual a f.d.p. de X. Alguns modelos são 
frequentemente usados para representar a f.d.p. de v.a. contínuas. Alguns dos mais utilizados 
serão descritos a seguir e, para uniformizar o estudo desses modelos, iremos em cada caso 
analisar: 

(a) definição; 

(b) gráfico da f.d.p.; 

(c) momentos: E(X),Var(X); 

(d) função de distribuição acumulada (f.d.a.). 

Outros modelos serão apresentados na Seção 7.7. 


7.4.1 O Modelo Uniforme 


O modelo uniforme é uma generalização do modelo estudado no Exemplo 7.1 e é o modelo 
mais simples para v.a. contínuas. 
(a) Definição. A v.a. X tem distribuição uniforme no intervalo [w, B] se sua f.d.p. é dada por 


l 
sinanie P-a” sea<x<p, (7.12) 
0, caso contrírio. 


(b) Gráfico. A Figura 7.9 representa a função dada por (7.12). 


Figura 7.9 Distribuição uniforme no intervalo [O, bj). 


fl) 


IP — q) 


(c) Momentos. Pode-se mostrar (veja o Problema 29) que 


E(x)=S5P, (7.13) 
var(x) = (E T2l (7.14) 


(d) F.d.a. A função de distribuição acumulada da uniforme é fácil de ser encontrada (veja o 


Problema 29): 
0, sex <a 
F(x)=P(X sx)=f f(x)de= mi sea sx<p (7.15) 
LR sex = b, 


cujo gráfico está na Figura 7.10. 


Figura 7.10 f.d.a. de uma v.a. uniforme no intervalo [O(, BI. 


Assim, para dois valores quaisquer c e d, c < d, teremos 
P(c<X<d)=F(d)- F(c), 
que é obtida facilmente de (7.15). 
Usaremos a notação 
X-u(a, B) 
para indicar que a v.a. X tem distribuição uniforme no intervalo [a, [1]. 


Exemplo 7.8 Um caso particular bastante interessante é aquele em que a = -1/2 e B = 1/2. Indicando 
essa v.a. por U, teremos 
“Ji, se-l/2<u<1/2 
dd fe caso contrítio. 
Nessa situação, temos que 
E(U) = 0, Var(U) = 1/12 


e a f.d.a. é dada por 


0 seu < 1/2 
Es (u)= | +1/2, se -l/2<u<l/2 
IR seu > 1/2. 

Por exemplo, 

P(-14<U<1/4)=F(1/4)-F(-1/4) = 1/2. 

Se quiséssemos facilitar o nosso trabalho, poderíamos tabelar os valores da f.d.a para essa 
variável U. Devido à simetria da área em relação a x = 0, poderíamos construir uma tabela 
indicando a função G(u), tal que 

G(u)=P(O<U<u) 
para alguns valores de u (veja o Problema 30). 
Dada uma v.a. uniforme X qualquer, com parâmetros a e B, podemos definir a v.a. U como 


B+a 
mo (7.16) 


ima 


Segue-se que a transformação (7.16) leva uma uniforme no intervalo [a, B] numa uniforme no 
intervalo [-1/2, 1/2] e para dois números quaisquer c e d, com c < d, 


Bra p+a) 
Fu a 
P(c<X=sd)=F(d)-F(c)=P ar <Us a) 
(q -B+S) (e Bra) 
es 


Ed em -Ky 


B-a | 


Artifícios semelhantes a esse são muito úteis na construção de tabelas e programas para 
cálculos de probabilidades referentes a famílias de modelos. 


Um outro caso importante é para « = O e B = 1. Um número aleatório é um valor gerado de 
uma v.a. com distribuição uniforme no intervalo [0, 1]. Veja o Capítulo 9. 


7.4.2 O Modelo Normal 


Vamos introduzir, agora, um modelo fundamental em probabilidades e inferência estatística. 
Suas origens remontam a Gauss em seus trabalhos sobre erros de observações astronômicas, por 
volta de 1810, donde o nome de distribuição gaussiana para tal modelo. 

(a) Definição. Dizemos que a v.a. X tem distribuição normal com parâmetros p e 02, -o < | < 

+00 e0<o?<oo, se sua densidade é dada por 


. 2 l =(x-n)" 20? 
(6) = me PRO co <x<o, (7.17) 


Claramente, f(x; 1, 0?) > 0, para todo x e pode-se provar que ER f(xuo:)jd = 1. Veja o Problema 
60. 
(b) Gráfico. A Figura 7.11 ilustra uma particular curva normal, determinada por valores 
particulares de p e 02. 


Figura 7.11 f.d.p. de uma v.a. normal com média |1 e desvio padrão O. 


fes 


(c) Momentos. Pode-se demonstrar que (veja o Problema 32): 


E(X) =, (7.18) 
Var(X) = 02. (7.19) 

Além disso, f(x; |; 0?) > 0, quando x > to,m - oe pn + são pontos de inflexão de f(x; q, 
02), x = | é ponto de máximo de f(x; y, 07), e o valor máximo é 1/02. . A densidade f(x; |, 0?) é 
simétrica em relação à reta x = |, isto é, 

ftm + x; m, 0?) = f(m - x; m, 02), (7.20) 
para todo x real. 


Para simplificar a notação, denotaremos a densidade da normal simplesmente por f(x) e 
escreveremos, simbolicamente, 


X- N(m, 0º). 
Quando m = 0 e o? = 1, temos uma distribuição padrão ou reduzida, ou brevemente N(0,1). 
Para essa a função densidade reduz-se a 


l 2 
d(z)= oi “—oo <Z < 00, (721) 


O gráfico da normal padrão está na Figura 7.12. 


Figura 7.12 f.d.p. de uma v.a. normal padrão: Z — N(O, 1). 


=1 +1 


Se X- N(m; 02), então a v.a. definida por 
E (72) 
Po 
terá média zero e variância 1 (prove esses fatos). O que não é tão fácil mostrar é que Z também 
tem distribuição normal. Isso não será feito aqui. 
A transformação (7.22) é fundamental para calcularmos probabilidades relativas a uma 
distribuição normal qualquer. 


(d) F.d.a. A f.d.a. F(y) de uma v.a. normal X, com média m e variância o? é obtida integrando- 
se (7.17) de -o0 até y, ou seja, 


F(y)=[.S(6n,0º)d,yeR (7.23) 


A integral (7.23) corresponde à área, sob f(x), desde -o0 até y, como ilustra a Figura 7.13. 


Figura 7.13 Representação gráfica de F(y) como área. 
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No caso específico da normal padrão, utilizamos a seguinte notação, que é universal: 
d(y)=[ o(c)de=1/2m (P etde. (7.24) 
O gráfico de D(z) é ilustrado na Figura 7.14. 


Figura 7.14 f.d.a. da normal padrão. 


d(z) 


Suponha, então, que X - N(m, o?) e que queiramos calcular 


P(a<X<b)=f f(x)de, (7.25) 


em que f(x) é dada por (7.17). Ver Figura 7.15. 

A integral (7.25) não pode ser calculada analiticamente e, portanto, a probabilidade indicada 
só poderá ser obtida, aproximadamente, por meio de integração numérica. No entanto, para cada 
valor de m e cada valor de 0, teríamos de obter P(a < X < b) para diversos valores de a e b. Essa 
tarefa é facilitada pelo uso de (7.22), de sorte que somente é necessário construir uma tabela para 
a distribuição normal padrão. 


Figura 7.15 Ilustração gráfica da P(a < X < b) para uma v.a. normal. 
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Vejamos, então, como obter probabilidades a partir da Tabela III. Essa tabela dá as 
probabilidades sob uma curva normal padrão, que nada mais são do que as correspondentes áreas 
sob a curva. A Figura 7.16 ilustra a probabilidade fornecida pela tabela, a saber, 

P(0<Z<z,), 


em que Z - N(0,1). 


Figura 7.16 P(O < Z < z) fornecido pela Tabela III. 


Se tomarmos, por exemplo, z, = 1,73, segue-se que 
P(0O<Z<1,73)= 0,4582. 
Calculemos mais algumas probabilidades (Figura 7.17): 
(a) P(-1,73<Z<0)=P(0<Z< 1,73) = 0,4582, devido à simetria da curva. 
(b) P(Z>1,73)=0,5- P(0<Z< 1,73) = 0,5 - 0,4582 = 0,0418, pois P(Z > 0) = = 0,5 = P(Z < 
0). 
(co) P(Z <-1,73) = P(Z > 1,73) = 0,0418. 
(d) P(0,47<Z<1,73)=P(0<Z<1,73)-P(0<Z<õ0,47)=0,4582- 0,1808 = = 0,2774. 


Figura 7.17 Ilustração do cálculo de probabilidades para a N(0,1). 
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Suponha, agora, que X seja uma v.a. N(m, 0º), com m = 3 e o? = 16, e queiramos calcular P(2 
<X<5). Utilizando (7.22), temos 


P(2a xa5)- p(2 sob ih) 
o o o 


2-3 5-3 l l 
-P(Eszs Dn p(-quza5). 


Portanto, a probabilidade de que X esteja entre 2 e 5 é igual à probabilidade de que Z esteja 
entre -0,25 e 0,5 (Figura 7.18). Utilizando a Tabela III, vemos que 
P(-0,25 <Z < 0,5) = 0,0987 + 0,1915 = 0,2902, 


ou seja, 
P(Q2<X<5)=0,2902. 


Figura 7.18 Ilustração do cálculo de P(2 < X < 5) para a v.a. N(3, 16). 
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Exemplo 7.9 Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro são distribuídos 
normalmente, com média de $ 10.000,00 e desvio padrão de $ 1.500,00. Um depósito é 
selecionado ao acaso dentre todos os referentes ao mês em questão. Encontrar a probabilidade de 
que o depósito seja: 

(a) $ 10.000,00 ou menos; 

(b) pelo menos $ 10.000,00; 

(c) um valor entre $ 12.000,00 e $ 15.000,00; 

(d) maior do que $ 20.000,00. 

Temos que m = 10.000 e o = 1.500. Seja a v.a. X = depósito. 


10.000 — 10.000 
o) =P(Z<s0)=0,5. 


-025 0 05 Z 


(a) P(X = 10.000) = p(z= 


(b) P(X > 10.000) = P(Z > 0) = 0,5. 


12.000-10.000  15.000-10.000 
P(12.000< X < 15,000)- P( o < Z< o) 


=P(4/3<Z <10/3)=P(1,33<Z <3,33)=0,09133. 


(c) 


20.000 — 10.000 


(d) P(X >20.000) = P(Z > E )-P(z>6,67)=0, 


7.4.3 O Modelo Exponencial 


Outra distribuição importante e que tem aplicações em confiabilidade de sistemas, assunto de 
que já tratamos brevemente no Capítulo 5, é a exponencial. 
(a) Definição. A v.a. T tem distribuição exponencial com parâmetro B > O se sua f.d.p. tem a 


forma 
I o E) 
std PS (726) 
0, set< 0. 
Escreveremos, brevemente, 
T- Exp(p). 


(b) Gráfico. O gráfico de f(t; B) = f(t) está ilustrado na Figura 7.8 (b), com B = 1. 
(c) Momentos. Usando integração por partes, pode-se demonstrar que (veja o Problema 41): 
E(D) = $, (7.27) 
Var(T) = B2. (7.28) 
Exemplo 7.10 O tempo de vida (em horas) de um transistor pode ser considerado uma v.a com 


distribuição exponencial com B = 500. Segue-se que a vida média do transistor é E(T) = 500 
horas e a probabilidade de que ele dure mais do que a média é 


P(T>500) =" f(t)dt=1/500f.. ertisedr 
= 1/500[-500€-:5% [1 = e-! = 0,3678. 
(d) F.d.a. Usando a definição (7.10), obtemos 
[0, set<0 


(=| (7.29) 


I-eb, setz0. 


O gráfico de F(t) está na Figura 7.8 (a), com B = 1. 


7.5 Aproximação Normal à Binomial 


Suponha que a v.a. Y tenha uma distribuição binomial com parâmetros n= 10 ep =12e 
queiramos calcular P(Y > 7). Embora seja uma v.a. discreta, vimos no Capítulo 2 que é possível 
representá-la por meio de um histograma, como na Figura 7.19. Vemos que P(Y = 7) é igual à 
área do retângulo de base unitária e altura igual a P(Y = 7), similarmente para P(Y = 8) etc. Logo, 
P(Y > 7) é igual à soma das áreas dos retângulos hachurados na Figura 7.19. 


Figura 7.19 (P(Y > 7) para Y — b(10, 1/2). 


O 110 2 43: 455 “Got 8 9 0 
A ideia é aproximar tal área pela área sob uma curva normal, à direita de 6,5. Qual curva 
normal? Parece razoável considerar aquela normal de média 


u=np=10x5=5 


e variância 
uu 
S=np(l-p)=10x5x5=2,5. 
Veja a Figura 7.20. 


Figura 7.20 Aproximação de P(Y > 7) pela área sob a N(5; 2,5). 
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Chamando X tal variável, com distribuição normal, 
P(Y=7)=P(X >6,5)= p( dh Ria 


6,5-5 
2,5 
em que Z é, como sempre, N(0, 1). Utilizando a Tabela I, vemos que a probabilidade verdadeira é 
0,172. 

Vamos calcular agora P((3< Y<6)=P(Y=4)+P(Y=5)+ P(Y= 6). Vemos, pela Figura 7.21, 
que a aproximação a ser feita deve ser 


P(z= |-(2=094)-0uns, 


BE o fed 
P(<r=6)=P(3,5<X <6,5)- P(*oqle = *ca) 


=P(-0,94s Z 0,94) = 0,653, 
ao passo que a probabilidade verdadeira é 0,656. 


Figura 7.21 Aproximação de P(3< Y < 6). 
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A justificativa formal de tal aproximação é dada pelo chamado Teorema Limite Central, que 
será visto no Capítulo 10. A aproximação é boa quando np > 5 en(1 -p)>5. 


13. A temperatura T de destilação do petróleo é crucial na determinação da qualidade final do produto. Suponha que T seja 
considerada uma v.a. com distribuição uniforme no intervalo (150, 300). Suponha que o custo para produzir um galão de petróleo 
seja Cj reais. Se o óleo for destilado a uma temperatura inferior a 200º, o produto obtido é vendido a C; reais; se a temperatura 
for superior a 200º, o produto é vendido a Cy reais. 

(a) Fazer o gráfico da f.d.p. de T. 

(b) Qual o lucro médio por galão? 
14. Se X - N(10, 4), calcular: 

(a) P(8<X< 10), (c) P(X > 10), 

(b) PO <X<12)(d)P(X<80uX>11). 
15. Para X - N(100, 100), calcule: 

(a) P(X < 115), 

(b) P(X > 80), 

(c) P(IX - 100] < 10), 


(d) o valor a, tal que P(100 - a < X < 100 + a) = 0,95. 
16. Paraav.a. X- N(y, 02), encontre: 

(a) P(X <p +20), 

(b) P(IX - nl < 0), 

(c) o número a tal que P(p-ao<X <p + ao) = 0,99, 

(d) o número b tal que P(X > b) = 0,90. 
17. As alturas de 10.000 alunos de um colégio têm distribuição aproximadamente normal, com média 170 cm e desvio padrão 5 
cm. 

(a) Qual o número esperado de alunos com altura superior a 165 cm? 

(b) Qual o intervalo simétrico em torno da média que conterá 75% das alturas dos alunos? 
18. As vendas de determinado produto têm distribuição aproximadamente normal, com média 500 unidades e desvio padrão 50 
unidades. Se a empresa decide fabricar 600 unidades no mês em estudo, qual é a probabilidade de que não possa atender a todos 
os pedidos desse mês, por estar com a produção esgotada? 
19. Suponha que as amplitudes de vida de dois aparelhos elétricos, D, e D,, tenham distribuições N(42, 36) e N(45, 9), 
respectivamente. Se os aparelhos são feitos para ser usados por um período de 45 horas, qual aparelho deve ser preferido? E se 
for por um período de 49 horas? 
20. O diâmetro X de rolamentos esféricos produzidos por uma fábrica tem distribuição N(0,6140; (0,0025)”). O lucro T de cada 
rolamento depende de seu diâmetro. Assim, 
T= 0,10, se o rolamento for bom (0,610 < X< 0,618). 
T= 0,05, se o rolamento for recuperável (0,608 < X < 0,610) ou (0,618 < X < 0,620). 
T=- 0,10, se o rolamento for defeituoso (X < 0,608 ou X > 0,620). 
Calcule: 

(a) as probabilidades de que os rolamentos sejam bons, recuperáveis e defeituosos. 

(b) ECT). 
21. Suponha que um mecanismo eletrônico tenha um tempo de vida X (em 1.000 horas) que possa ser considerado uma v.a. 
contínua com f.d.p. f(x) = e-*, x > 0. Suponha que o custo de fabricação de um item seja 2,00 reais e o preço de venda seja 5,00 
reais. O fabricante garante total devolução se X < 0,9. Qual o lucro esperado por item? 
22. Seja Y com distribuição binomial de parâmetros n = 10 e p = 0,4. Determine a aproximação normal para: 

(DP3B<Y<B,DPY>27,()P(Y<5. 
23. De um lote de produtos manufaturados, extraímos 100 itens ao acaso; se 10% dos itens do lote são defeituosos, calcule a 
probabilidade de 12 itens serem defeituosos. Use também a aproximação normal. 
24. A confiabilidade de um mecanismo eletrônico é a probabilidade de que ele funcione sob as condições para as quais foi 
planejado. Uma amostra de 1.000 desses itens é escolhida ao acaso e os itens são testados, obtendo-se 30 defeituosos. Calcule a 
probabilidade de se obter pelo menos 30 itens defeituosos, supondo que a confiabilidade de cada item é 0,95. 


7.6 Funções de Variáveis Contínuas 


Vimos, no Capítulo 6, como obter a distribuição de uma v.a. Y = h(X), se conhecermos a 
distribuição da v.a. discreta X. Vejamos, agora, o caso em que X é contínua. Suponhamos, 
primeiramente, que a função h seja estritamente monotônica, crescente ou decrescente. Neste 
caso, a inversa h'! estará univocamente determinada e podemos obter x = h!(y), para valores x e y 
das v.a. X e Y, respectivamente. Observando a Figura 7.22, vemos que, se a densidade de X, f(x), 
digamos, for positiva no intervalo a <x < b, então a densidade de Y será positiva para h(a) < y < 
h(b), se h for crescente, e para h(b) < y < h(a), se h for decrescente. 


Figura 7.22 Função de uma v.a. 


(b) A decrescente 


Exemplo 7.11 Suponha X com a densidade do Exemplo 7.2 e considere Y = 3X + 4. Aqui, y = h(x) = 
3x + 4, que é crescente (Figura 7.23 (a)). 


Figura 7.23 Exemplos de funções de v.a., (a) Exemplo 7.11, (b) Exemplo 7.12. 


(a)y=3x+4 (b)y=e* 


Denotando a densidade de Y por g(y), e como f(x) > Opara0<x<1, g(y)>0Opara4<y< 7. 

Notemos que se podem obter probabilidades relativas a Y a partir da densidade de X. Por 
exemplo, 

P(Y>0)=P(G3X+4>1)=P(X>-1)=1. 

Vejamos como se pode obter g(y). Denotemos por G(y) a função de distribuição acumulada de 
Y. Da Seção 7.3, sabemos que G'(y) = g(y); para todo valor de y para o qual G for derivável. 
Então, temos 

/ 


G6)=Mre)= Pre ses)=n(1=258) -r(258), 


em que estamos denotando por F(-) a função de distribuição acumulada de X. Usando a regra da 
cadeia para derivadas, temos 


do que decorre 
mim, S04<cy<7 
0, caso contrírio. 
Exemplo 7.12 Suponha, agora, que X tenha densidade f(x) = 3x)/2,-1<x< 1 e que Y= e*. Segue-se 
que h(x) = e* é uma função decrescente e x = -Ln(y) (Figura 7.23 (b)). Então, 
G(y)=P(Y <y)=P(e* <y)=P(X=tn(y)) 
=1-P(X <-tn(y))=1- F(-tn(y)), 
em que novamente F denota a f.d.a. de X. Derivando, obtemos a f.d.p. de Y, 
3 2 
g(y)= 35Utn(v)) ,sel<y<e. 
O seguinte resultado generaliza esses dois exemplos. 

Teorema 7.1 Se X for uma v.a. contínua, com densidade f(x) > 0,a <x<b, então Y = h(X) tem 
densidade 

e()= (1 ())S) (7.30) 


supondo que h seja monotônica, derivável para todo x. Se h for crescente, g(y) > 0, h(a) < y < 
h(b) e, se h for decrescente, g(y) > 0, h(b) < y < h(a). 


Prova. Basta notar que G(y) = P(Y < y) = P(h(X) < y) e que essa probabilidade é igual a P(X < h 
'(y) = F(h(y)), se h for crescente, e igual a 1 - F(h!(y)), se h for decrescente. Derivando G(y) 
obtemos o resultado, notando que a derivada (h'(y)) = dx/dy > O se h for crescente, e negativa se 
h for decrescente. 

Suponha, agora, que h não seja monotônica. Um caso de interesse que será usado mais tarde é 
Y=h(X) = Xº (Figura 7.24). Temos 


o(y)=P(rsy)=P(x: = y)=P(-Vys xs /y) 
«P(No)-H(=6). 


e derivando obtemos a densidade de Y, 
g(y)= sE vo): st) (7.31) 


em que f é a densidade de X. 
Se f(x) = 1,0 <x<1 (X é uniforme no intervalo [0, 1]), então 


l 
gly)=—=,0<y<l. 
0)-55 


Figura 7.24 Ilustração de Y = h(X) = Xº. 
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Problemas 


25. Considere a v.a. X do Problema 2e Y=X+5. 
(a) Calcule P(Y < 5,5). 
(b) Obtenha a densidade de Y. 
(c) Obtenha a densidade de Z = 2X. 
26. Suponha que a v.a. X tenha a densidade do Problema 8. Se Y = 2X - 3/5, obter a densidade de Y. Calcule E(Y) e Var(Y). 


27. Suponha X = u [-1, 1]. Calcule a densidade de Y = X edeW= EI. 
7.7 Outros Modelos Importantes 


Nesta seção, vamos introduzir alguns modelos para v.a. contínuas que serão bastante 
utilizados na terceira parte deste livro. Juntamente com o modelo normal, esses modelos são 
úteis para as v.a. de interesse prático, que na maioria dos casos assumem valores positivos e 
tendem a ter distribuições assimétricas à direita. 


7.7.1 A Distribuição Gama 


Uma extensão do modelo exponencial é estudado a seguir. 


Definição. A v.a. contínua X, assumindo valores positivos, tem uma distribuição gama com 
parâmetros «> 0 e B > 0, se sua f.d.p. for dada por 


I q-1 
foca p= 1 Trapo CO *>0 (539) 
0, x<0, 


eb 


Em (7.32), T'(ot) é a função gama, importante em muitas áreas da Matemática, dada por 


I(o) = f, esxeidr, asO. (7.33) 


Não é difícil ver que T'(o) = (a - 1) T(o - 1), se « = n for um inteiro positivo, T(n) = (n - 1)! e 
que r(1/2) = Jx. Veja o Problema 45. 
A Figura 7.25 ilustra a densidade (7.32) para a = 3 e B = 1. Sea = 1 obtemos a distribuição 
exponencial (7.26). Muitos casos de interesse têm «q inteiro positivo. 
Usaremos a notação 
X - Gama(a, B) 
para designar uma v.a. com a distribuição dada por (7.32). 


Figura 7.25 Gráfico da f.d.p. de uma distribuição gama, O = 3, B =1. 
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Pode-se demonstrar que: 
E(X) = of, Var(X) = ap?. (7.34) 


7.7.2 A Distribuição Qui-Quadrado 


Um caso especial importante do modelo gama é obtido fazendo-se «= v2eB=2, comv>0 
inteiro. 
Definição. Uma v.a. contínua Y, com valores positivos, tem uma distribuição qui-quadrado com v 
graus de liberdade, se sua densidade for dada por 


yiZde-sr, v>0 
fo;= (TWD CT (7.35) 
0, y<o0. 


Usaremos a notação Y - x? (v). 
A Figura 7.26 ilustra os gráficos de (7.35) para v = 1, 2, 3. Segue-se de (7.34) que 


E(Y) = v, Var(Y) = 2v. (7.36) 


Figura 7.26 Gráficos da distribuição qui-quadrado Y2(v). 
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A distribuição qui-quadrado tem muitas aplicações em Estatística e, como no caso da normal, 
existem tabelas para obter probabilidades. A Tabela IV fornece os valores de y, tais que P(Y > y,) 
= p, para alguns valores de p e de v. Ver Figura 7.27. 


Figura 7.27 Valores tabelados da distribuição Y2(v). 
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Exemplo 7.13 Usando a Tabela IV, para v = 10, observe que P(Y > 2,558) = 0,99, ao passo que P(Y 
> 18,307) = 0,05. 

Para v > 30 podemos usar uma aproximação normal à distribuição qui-quadrado. 
Especificamente, temos o seguinte resultado: se Y tiver distribuição qui-quadrado com v graus de 
liberdade, então a v.a. 

Z=2Y -V2v-1- N(0,1). 
Por exemplo, consultando a Tabela IV, temos que, se v = 30, 
P(Y > 40,256) = 0,10, 
enquanto que, usando a fórmula acima, temos que 
z= 2x 40,256 — 4/59 = 1,292 
e P(Z > 1,292) = 0,099, que resulta ser uma boa aproximação. 
Exemplo 7.14 Considere Z - N(0,1) e considere a v.a. Y = Z2. De (7.31) temos que a densidade de Y 
é dada por 


80)= 5 po [9(5) + 4 5)]>9, 


em que por q(z) indicamos a densidade da N(0,1). Resulta 


«1/2 0-y/2 
, ev, 


1 
g(y)= Ed 
e comparando com (7.35) vemos que Y - x*(1). Temos, aqui, um resultado importante: 
O quadrado de uma v.a. com distribuição normal padrão é uma v.a. com distribuição y(1). 
De um modo mais geral, uma v.a. x? (v) pode ser vista como a soma de v normais padrões ao 
quadrado, independentes. 


7.7.3 A Distribuição t de Student 


A distribuição t de Student é importante no que se refere às inferências sobre médias 
populacionais, tópico a ser tratado nos Capítulos 12 e 13. A obtenção da densidade está contida 
no teorema abaixo. 


Teorema 7.1 Seja Z uma v.a. N(0,1) e Y uma v.a. x? (v), com Z e Y independentes. Então, a v.a. 


Z 
tem densidade dada por 
T((v+1)/2 nro 
flt;v)= E (1+8/y MM, co<t<o, (7.38) 


Diremos que tal variável tem uma distribuição t de Student com v graus de liberdade e a 
indicaremos por t(v). Pode-se provar que 


E()=0, Var(t)= =. v>2, (7.39) 


e verificar que o gráfico da densidade de t aproxima-se bastante de uma N(0,1) quando v é 
grande. Veja a Figura 7.28. 


Figura 7.28 À distribuição t de Student e a distribuição normal padrão. 
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Como essa distribuição é bastante utilizada na prática, existem tabelas fornecendo 
probabilidades relativas a ela. A Tabela V fornece os valores de t. tais que 


P(-t.<tv)<t)=1-p, (7.40) 


para alguns valores de p e de v. 
O nome Student vem do pseudônimo usado pelo estatístico irlandês W. S. Gosset, que 
introduziu essa distribuição no início do século passado. 


Exemplo 7.15 Se v = 6, então, usando a Tabela V, P(-1,943 < t(6) < 1,943) = 0,90, ao passo que 
P(t(6) > 2,447) = 0,025. Observe que, nessa tabela, há uma linha com v = oo, que corresponde a 
usar os valores da N(0,1). Para n > 120 essa aproximação é muito boa. 


7.7.4 A Distribuição F de Snedecor 

Vamos considerar agora uma v.a. definida como o quociente de duas variáveis com 
distribuição qui-quadrado. 

O seguinte teorema, que não será demonstrado, resume o que nos vai ser útil. 


Teorema 7.2 Sejam U e V duas v.a. independentes, cada uma com distribuição qui-quadrado, com 
v, € v, graus de liberdade, respectivamente. Então, a v.a. 


U/v, 
FT (7.41) 


tem densidade dada por 


T((w+w)/2) (vi? (u-2)2 
e(wv,m)= (tva) ) [2] o w>0. (7.42) 


% P(u/2)7 (va /2)lva (Lrvw/v, pum á 


Diremos que W tem distribuição F de Snedecor, com v, e v, graus de liberdade, e usaremos a 
notação W - F(v,, v,). Pode-se mostrar que 


à V, ESP 2vi (uu +v,;—2) 
EMm=-2 e Var(W)=-——EliSnaoo 
viva —2) (v;— 4) 


(7.43) 


O gráfico típico de uma v.a. com distribuição F está na Figura 7.29. Na Tabela VI, são dados 
os pontos fp tais que 


P(F(nm)>f=a, 
para a = 0,05, « = 0,025 e alguns valores de v, e v,. Para encontrar os valores inferiores, usa-se o 
fato que, se W - F(v,, v,), então 


7 — (vn): (7.44) 


Figura 7.29 Gráfico de distribuição F. 


Exemplo 7.16 Considere, por exemplo, W - F(5,7). Consultando a Tabela VI, P(W > 3,97) = 0,05 
ou, então, P(W < 3,97) = 0,95. Digamos, agora, que desejamos encontrar o valor fy tal que P(W < 
fo) = 0,05. De (7.44) temos 
0,05 = P(F(5,7) < f,) = PLF(7,5) < f9) = PLF(7,5) > Uf), 

e procurando na Tabela VI, para F(7,5), obtemos 1/f, = 4,88 e, portanto, f, = 0,205. 

Na seção de Problemas e Complementos, apresentamos algumas outras distribuições de 
interesse, como a log-normal, Pareto, Weibull e beta. 

Na Tabela 7.2, mostramos os principais modelos para v.a. contínuas, incluindo: a densidade, o 
domínio dos valores, os parâmetros, a média e a variância. 


Tabela 7.2 Modelos para variáveis contínuas. 


Modelo fl) Parâmetros E(X), Var(X) 
Uniforme uB-0),0<x<p o, B (x + By2, (B - 07712 
Exponencial vBe'b,t>0 ) B, Bº 
Dem Co ya MA ê 
Normal Em = exp p= | “x o) H, 0º 
Gama by T(a)x"e-t,x>0 B>0,0>0 ob, ap? 
2-2 
Qui-quadrado Tw2 pele, y>0 v v, 2v 
Pl(v+1)/2)f, ye 
t-Student pe] 1+ ,—00< | < oo v 0,v/(v-2 
dE dd v da 
(u +m,) 
r É vis 
l 2 Y 3 Er v 2v2(y +v,—2) 
F-Snedecor E mito simao W>0 Vy Va Prec E SR 4 
r(ir($) ' (1) É 27º u(m-2) (m—4) 
Ma 


7.8 Quantis 


No Capítulo 6, definimos o p-quantil Q(p) como o valor da v.a. discreta X satisfazendo as duas 
desigualdades de (6.26). 

No caso de uma v.a. contínua X, essa definição torna-se mais simples. Se F(x) designar a f.d.a. 
de X, temos que as desigualdades em (6.26) ficam: 


P(X < Q(p) = F(Q()) 2 p (7.45) 


P(X > Q(p) =1-P(X<O(p)=1-P(X<OQ(p)=1-F(Q(p)=1-p.(7.46) 
Mas (7.46) pode ser reescrita como 
F(Q()) < p. (7.47) 
Portanto, de (7.45) e (7.47) chegamos à conclusão de que o p-quantil deve satisfazer 
F(O(p)) = p. (7.48) 
Graficamente, temos a situação ilustrada na Figura (7.30). Ou seja, para obter Q(p), marcamos 
p no eixo das ordenadas, consideramos a reta horizontal pelo ponto (0, p) até encontrar a curva 


de F(x) e baixamos uma reta vertical até encontrar Q(p) no eixo das abscissas. Analiticamente, 
temos de resolver a Equação (7.48). Vejamos alguns exemplos. 


Figura 7.30 Definição de Q(p), (a) f.d.a., (b) f.d.p. 


Flo) 


(a) (b) 


Exemplo 7.17 Se Z - N(0, 1), utilizando a Tabela II encontramos facilmente que 
Q(O, 5) = Q,=0, 
Q(O, 25) = Q, = - 0,675, 
Q(O, 30) = - 0,52, 
Q(0,75) = Q, = 0,675. 
Exemplo 7.18 Suponha que Y - Exp(2). Se quisermos calcular a mediana, Q,, teremos de resolver 


fé So)ár= 0,5, 
ou seja, 

I2fP err dy=0,5. 
Obtemos 

1-eY%2=0,5, 
do que temos, finalmente, Q, = -2£n(0,5) = 1,386. 


7.9 Exemplos Computacionais 


Para variáveis contínuas, o padrão dos comandos é muito parecido com o padrão utilizado no 
capítulo anterior para variáveis discretas. Valem os mesmos prefixos, isto é, d para densidade, p 
para função distribuição, q para quantis e r para simulação. A Tabela 7.3 apresenta os principais 
sufixos para distribuições contínuas: 


Tabela 7.3 As principais distribuições contínuas e seus sufixos no R. 


Distribuição | Sufixo Parâmetros 


Exponencial 


Normal 


Gama 


Qui-quadrado 


t-Student 


F-Snedecor 


Apresentaremos a seguir uma sequência de comandos para construir os gráficos da função 
densidade e distribuição acumulada de uma v.a. Normal padrão. Esta sequência de comandos 
pode ser utilizada para qualquer distribuição contínua. 


x<-seq (-3,3,0.1) & Cria um intervalo de -3 a 3 

fdnorm<-dnorm(x = x, mean = 0, sd=1) 4 Calcula a fdp da distr. normal para o intervalo x 
fdanorm<-pnorm(q = x, mean = 0, sd=1) 4 Calcula a fda da distr. normal para o intervalo x 
*% Imprimindo os gráficos da fdp e fda: 


par (mfrow=c (1,2)) 

plot (x=x,y=fdnorm,type="1", col="blue", Iwd=2, main="f.d.p. da Distrib. Normal padrão",xlab="z") 
plot (x=x,y=fdanorm,type="1", col="blue" lwd=2, main="f.d.a. da Distrib. Normal padrão",xlab="z") 
lines (x=c(0,0),y=c(0,fdanorm[x==01), Ity=2, col="gray") 


Nesta seção, vamos dar alguns exemplos de como obter probabilidades acumuladas e quantis 
para a normal e exponencial, usando o R. Isso também pode ser feito usando outros pacotes, 
como o Minitab e SPlus, bem como podemos considerar outras distribuições contínuas. 


Considere a v.a. contínua X, com f.d.a. F(x)=P(X<x), para todo x real. Dado x, queremos 
calcular F(x), ou dado F(x)=p, O< p <1, queremos calcular x=Q(p), conforme (7.48), ou seja, 
queremos calcular o p-quantil de X. 

Exemplo 7.19 Suponha X com distriuição normal, de média 10 e desvio padrão 25. Se x=8,65, para 
obter F(x) usamos o comando: 


pnorm (8.65,mean=10, sd=25), 
obtendo-se 
[1] 0.47847 


Por outro lado, se F(x)=0,8269(=p), usamos o comando: 


qnorm (0.8269,mean=10, sd=25), 
obtendo-se o quantil 
[1] 33.55 


Exemplo 7.20 Suponha, agora, que tenhamos uma distribuição exponencial, com média E(X)=0,5, 
ou seja, parâmetro p =2. Da mesma forma, os comandos para a distribuição exponencial serão 
pexp e qexp, respectivamente: 


pexp (0.85, rate=2) 
[1] 0.81732 

qexp (0.345 ,rate=2) 
[1] 0.21156 

[1] 0.21156 


Exemplo 7.21 Podemos, também, construir o gráfico de uma f.d.a, por meio de comandos do R 
(ou de outro pacote). Suponha Z = N(0,1). Como os valores de Z estão concentrados no intervalo 
[-4,4], podemos considerar um vetor de valores nesse intervalo e obter o gráfico de da f.d.a. Os 
comandos estão abaixo, onde utilizamos o comando curve. O gráfico está na Figura 7.31. 


curve (pnorm(q = x, mean = 0, sd=1), xlim=c (- 4, 4), col="blue", Iwd=2, 
ylab="", xlab="z"9 


Figura 7.31 Gráfico da f.d.a. da N(0, 1). R. 


1.0 


04 06 08 


diz 


0 02 


PR 
tb 
9 
EN 


ta 


7.10 Problemas Suplementares 
28. Numa determinada localidade, a distribuição de renda (em reais) é uma v.a. X com f.d.p. 


! 
— 2 
X+79» 0sxs2 
ft)- 9 
-40"* 50" 2<xz6 
0, x<0oux>6. 


(a) Qual a renda média nessa localidade? 
(b) Escolhida uma pessoa ao acaso, qual a probabilidade de sua renda ser superior a $ 3.000,00? 
(c) Qual a mediana da variável? 
29. Se X tiver distribuição uniforme com parâmetros a e B, mostre que: 
(a) g(x)= Ea 


(b) Var(X) = (B - 0)?/12. 
0, 


x<a 


(c) F(x)= = asxsp 
1, x>. 
30. Complete a tabela abaixo, que corresponde a alguns valores da função 


G(u=P(o<U<u), 


definida na Seção 7.4.1, com U uma v.a. uniforme no intervalo (-1/2, 1/2). 


Probabilidades p, tais que p= P(O<U< u) 


Segunda decimal de u | Primeira decimal de u 


Primeira decimal de u 


0,0 0 1 E 9 0,0 
0,1 0,1 
0,2 0,2 
0,3 0,3 
0,4 0,4 
0,5 0,5 


31. Dada a v.a. X, uniforme em (5, 10), calcule as probabilidades abaixo, usando a tabela do problema anterior. 

(a) P(X<7) (c) P(X> 8,5) 

(b) P(8<X<9) (d) P(|X - 7,5|> 2) 
32. Se X- N(y, 07), calcular E(X) e Var(X). 
[Sugestão: Fazendo a transformação de variáveis x = | + ot, obtemos queer - FE festas FE ftettd A primeira integral resulta p 
(por quê?) e a segunda anula-se, pois o integrando é uma função ímpar. Para obter a variância, obtenha E(X?) por integração por 
partes.) 
33. As notas de Estatística Econômica dos alunos de determinada universidade distribuem-se de acordo com uma distribuição 
normal, com média 6,4 e desvio padrão 0,8. O professor atribui graus A, B e C da seguinte forma: 


Nota 
x<5 
SAS 


7,5<x<10 


Numa classe de 80 alunos, qual o número esperado de alunos com grau A? E com grau B? E C? 
34. O peso bruto de latas de conserva é uma v.a. normal, com média 1.000 g e desvio padrão 20 g. 

(a) Qual a probabilidade de uma lata pesar menos de 980 g? 

(b) Qual a probabilidade de uma lata pesar mais de 1.010 g? 
35. A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada por uma distribuição normal, com 
média de 5 kg e desvio padrão de 0,8 kg. Um abatedouro comprará 5.000 coelhos e pretende classificá-los de acordo com o peso, 
do seguinte modo: 20% dos leves como pequenos, os 55% seguintes como médios, os 15% seguintes como grandes e os 10% 
mais pesados como extras. Quais os limites de peso para cada classe? 
36. Uma enchedora automática de garrafas de refrigerantes está regulada para que o volume médio de líquido em cada garrafa 
seja de 1.000 cm? e o desvio padrão de 10 cm?. Pode-se admitir que a variável volume seja normal. 


(a) Qual é a porcentagem de garrafas em que o volume de líquido é menor que 990 em?? 

(b) Qual é a porcentagem das garrafas em que o volume líquido não se desvia da média em mais que dois desvios padrões? 

(c) O que acontecerá com a porcentagem do item (b) se a máquina for regulada de forma que a média seja 1.200 cm eo 
desvio padrão 20 cmê? 


37. O diâmetro de certo tipo de anel industrial é uma v.a. com distribuição normal, de média 0,10 cm e desvio padrão 0,02 cm. Se 
o diâmetro de um anel diferir da média em mais que 0,03 cm, ele é vendido por $ 5,00; caso contrário, é vendido por $ 10,00. 
Qual o preço médio de venda de cada anel? 
38. Uma empresa produz televisores e garante a restituição da quantia paga se qualquer televisor apresentar algum defeito grave 
no prazo de seis meses. Ela produz televisores do tipo A (comum) e do tipo B (luxo), com lucros respectivos de $ 1.000,00 e $ 
2.000,00, caso não haja restituição, e com prejuízos de $ 3.000,00 e $ 8.000,00, se houver restituição. Suponha que o tempo para 
a ocorrência de algum defeito grave seja, em ambos os casos, uma v.a. com distribuição normal, respectivamente, com médias 9 
meses e 12 meses, e variâncias 4 meses? e 9 meses?. Se tivesse de planejar uma estratégia de marketing para a empresa, você 
incentivaria as vendas dos aparelhos do tipo A ou do tipo B? 
39. Determine as médias das v.a. X, Ye Z: 

(a) X uniforme em (1,3), Y=3X +4,Z=&. 

(b) X tem fdp. f)=ex>0,Y=X2,Z=3(X+ 1). 
40. Suponha que X tenha distribuição uniforme em [-a, 3a]. Determine a média e a variância de X. 
41. Se T'tiver distribuição exponencial com parâmetro f, mostre que: 

(a) E(T) = B. (b) Var(T) = p?. 
42. Os dados a seguir representam uma amostra de firmas de determinado ramo de atividade de uma região. Foram observadas 
duas variáveis: faturamento e número de empregados. 


Faturamento Nº de empresas 
Nº de Nºd 0—10 18 
e empresas 
empregados 10-50 52 
0--20 35 50 100 30 
20-50 75 100 — 200 26 
50100 45 200 — 400 24 
100 — 200 30 400 - 800 20 
200 | 400 15 800 — 1600 16 
4001-800 8 1600 - 3200 14 
> 800 2 3200 -— 6400 6 
Total 210 > 6400 Ra 
Total 210 


(a) Calcule a média e a variância para cada variável. 
(b) Supondo normalidade para cada uma dessas variáveis, com parâmetros estimados pela amostra, calcule os valores 
esperados para cada intervalo de classe e compare com o observado. 
43. Suponha que a v.a. X tenha densidade f(x) = 1, para O <x< 1 e igual a zero no complementar. Faça Y = x. 
(a) Determine Fy(y) = P(Y <y), y real. 
(b) Determine a f.d.p. de Y. 
(c) Calcule E(X?), utilizando a f.d.p. de X. 
(d) Calcule E(Y), utilizando a f.d.p. de Y, e compare com (c). 


44. Dada a v.a. 
X-u, 
a < 


Z= 


determine a média e a variância de Z, sabendo-se que a f.d.p. de X é 
fo)=e*,x>0. 
45. (a) Prove que, se a for inteiro positivo, T'(o) = (a - 1)!. 
(b) Prove que T'(a + 1) = a(o). 
(c) Calcule T(1) e (1/2). 
(d) Prove que a média e a variância de uma v.a. X com distribuição gama (densidade em (7.32)) são, respectivamente, of e op2. 


46. Suponha que X tenha distribuição exponencial com parâmetro B. Prove que 
P(X >t+ x) 
Plx>5) 
Essa propriedade nos diz que a distribuição exponencial não tem memória. Por exemplo, se X for a vida de um componente 
eletrônico, a relação acima diz que, se o componente durou até o instante x, a probabilidade de ele não falhar após o intervalo t + 
x é a mesma de não falhar após o instante t. Nesse sentido, X “esquece” a sua idade, e a eventual falha do componente não resulta 
de uma deterioração gradual e sim de alguma falha repentina. 
47. Se X for uma v.a. contínua, com f.d.p. f(x), e se Y = g(X) for uma função de X, então Y será uma v.a com 
E(r)=]" e(x)f(aJás. 


-P(X >1),Vt,x z0. 


Suponha que X tenha densidade 


Ve, x40 

ste (Vs += 

(Mes, x>0. 
Obtenha E(Y), se Y = |X]. 
48. Se X for uniforme no intervalo [0, 1], obtenha a média da v.a. Y = ()X?. 
49. Obtenha o gráfico da f.d.a. de uma v.a. T - Exp(0, 5), ou seja, E(T) = 2, considerando 20 valores de T e calculando os valores 
de F(t), como na Seção 7.9. 
50. Idem, para 30 valores de uma uniforme no intervalo [-1,1]. 
51. Obtenha os quantis Q(0,1), Q,, Q5, Q3, Q(0,9) para uma v.a. X - N(10, 16). 
52. Resolva a mesma questão para uma v.a. Y - X(5). 
53. Usando a aproximação normal a uma variável qui-quadrado, calcular: 

(a) P(X2(35) > 49,76); (b) o valor y tal que P(X2(40) > y) = 0,05. 


7.11 Complementos Metodológicos 


1. Distribuição de Pareto. Esta é uma distribuição frequentemente usada em Economia, em conexão com problemas de 
distribuição de renda. 


Dizemos que a v.a. X tem distribuição de Pareto com parâmetros a > 0, b > O se sua f.d.p. for dada por 


re) [6/8] , x2b 

0, x<b. 

Aqui, b pode representar algum nível mínimo de renda, x é o nível de renda e f(x) Ax dá a proporção de indivíduos com renda 
entre xe x + Ax. O gráfico de f(x) está na figura a seguir. 


f60) 


[= x 


(a) Prove que [E fx) de ul. 
(b) Mostre que, para a > 1, 
— is 

(a -1Ma 2) 

2. Distribuição lognormal. Outra distribuição usada quando se têm valores positivos é a distribuição lognormal. A v.a. X tem 
2 


E(x)= E eparaa>2,Var(X) = 


distribuição lognormal, com parâmetros q e 0º, -0 << 00, 02 >0,se Y= &nX tiver distribuição normal com média p e variância 


02. A f.d.p. de X tem a forma 


o] 
o). o 
f(x) = xo ei Ps 
0, sexs0. 


O gráfico de f(x) está na figura abaixo. 


f(x) 


+ 
0 x 


(a) Prove que E(X) = en + D, 

(b) Se E(X) = m, prove que Var(X) = mí(eg? -1). 
3. Distribuição de Weibull. Um modelo que tem muitas aplicações na teoria da confiabilidade é o modelo de Weibull, cuja f.d.p. 
é dada por 


à opxttea? x>0 
x<0, 


Fla) 


em que a e B são constantes positivas. A v.a. X pode representar, por exemplo, o tempo de vida de um componente de um 
sistema. 

(a) Se B = 1, qual a f.d.p. resultante? 

(b) Obtenha E(X) para P = 2. 


4. Distribuição Beta. Uma v.a. X tem distribuição beta com parâmetros a > 0, B > 0, se sua f.d.p. for dada por 
1 A n 
Áde Fla) (=x), 0<x<l 
0, caso contrário. 
Aqui, B(o, B) é a função beta, definida por 
B(az,B) = f, xe (1 - xP? dx 
É possível provar que B(a, B) = T(c)N(B)/ T(a + B). A figura abaixo mostra a densidade da distribuição beta para o = B = 2. Para 
esse caso, calcule P(X < 0,2). Calcule a média e a variância de X para a = B =2. 


Foge 


0 os 1 x 
u=B=2 


5. Se na distribuição t de Student colocarmos v = 1, obteremos a distribuição de Cauchy, 
ti 
Fx)= Ee PR o 
Mostre que E(X) não existe. 
6. Para uma v.a. com distribuição qui-quadrado, com v graus de liberdade e v par, vale a seguinte fórmula: 


va pio! 
P(x(v)>c)=es? Pos (eta), 
& A 


Calcule essa probabilidade para os seguintes casos e compare com os valores tabelados na Tabela IV: 

(a) v = 4, c = 9,488; 

(b) v = 10, c =16. 
7. SeX-N(p, 0º), com densidade f(x) dada por (7.17), provemos que a integral; = fa f(x)á=1. Como esta integral é sempre 
positiva, mostremos que P = 1. Novamente, como no Problema 32, fazemos a transformação x = pq + ot e obtemos 
Pes pe Pao, em que os limites de integração são -oo e oo. Agora, fazemos outra transformação, passando de coordenadas 


cartesianas para polares: s = r cos 0, t=r sen 0, de modo que dsdt = r drdB. Segue-se, integrando primeiro com relação a r e 
depois com relação a 0, que 


Ls, 1 ; 1x 
Peso fo e" Prdrdo = [O [cen Tao = (5 dom. 


Capítulo 8 


Variáveis Aleatórias Multidimensionais 


8.1 Distribuição Conjunta 


Em muitas situações, ao descrevermos os resultados de um experimento, atribuímos a um 
mesmo ponto amostral os valores de duas ou mais variáveis aleatórias. Neste capítulo, iremos 
nos concentrar no estudo de um par de variáveis aleatórias, indicando que os conceitos e 
resultados apresentados estendem-se facilmente a um conjunto finito de variáveis aleatórias. Um 
tratamento mais completo é dado ao caso de variáveis discretas, nas Seções 8.1 a 8.4. 


Exemplo 8.1 Suponha que estamos interessados em estudar a composição de famílias com três 
crianças, quanto ao sexo. Definamos: 


X = número de meninos, 
Fe. | I,se o primeiro filho for homem 
0,se o primeiro filho for mulher, 
Z = número de vezes em que houve variação do sexo entre um nascimento e outro, dentro da 
mesma família. 


Com essas informações, e supondo que as possíveis composições tenham a mesma 
probabilidade, obtemos a Tabela 8.1, em que, por exemplo, o evento HMH indica que o primeiro 
filho é homem, o segundo, mulher e o terceiro, homem. 

As distribuições de probabilidades das v.a. X, Ye Z podem ser obtidas dessa tabela e são dadas 
na Tabela 8.2. 


Tabela 8.1 Composição de famílias com três crianças, quanto ao sexo. 


Eventos | Probabilidade |X | Y |Z 
HHH 1/8 a] 1/0 
HHM 1/8 2|1)d 
HMH 1/8 2/1)2 
MHH 1/8 210) 1 
HMM 1/8 pe 
MHM 1/8 1/0|2 
MMH 1/8 1/0]1 

MMM 1/8 0/0|/0 


Tabela 8.2 Distribuições de probabilidades unidimensionais. 


(a) (b) (c) 
x 0 1 2 3 y 0 1 Z 0 il 2 
p(x) | 1/8 |3/8|3/8|1/8 p()|12/12 p(z)|1/4/1/2]1/4 


A Tabela 8.3 apresenta as probabilidades associadas aos pares de valores nas variáveis X e Y. 
Nessa tabela, p(x, y) = P(X = x, Y = y) denota a probabilidade do evento (X = xe Y=yj=(X= 
xy n £Y = y>. Essa tabela é denominada distribuição conjunta de X e Y. 


Tabela 8.3 Distribuição bidimensional da v.a. (X, Y). 


(x, 7) | Pl, y) 
(0,0) | 1/8 
(1,0) | 2/8 
(1,1) | 1/8 
(2,0) | 1/8 
2,1) | 2/8 
(3,1) | 1/8 


A partir da Tabela 8.1, podemos formar também as distribuições conjuntas de X e Z, de Y e Z, 
bem como a distribuição conjunta de X, Y e Z, que está dada na Tabela 8.4. 


Tabela 8.4 Distribuição conjunta das v.a. X, Ye Z. 


(x,y, 2) | p(x, y, 2) 
(0, 0, 0) 1/8 
(1,0, 1) 1/8 
(1,0,2) 1/8 
(1,1,1) 1/8 
(2,0,1) 1/8 
(21,1) 1/8 
(2, 1,2) 1/8 
(3, 1,0) 1/8 


Aqui, p(x,y, 27) = P(X=x,Y=y,Z =z). Vamos nos fixar nas distribuições bidimensionais, isto 
é, nas distribuições conjuntas de duas variáveis. Nesse caso, uma maneira mais cômoda de 


representar a distribuição conjunta é por meio de tabelas de duplas entradas, como na Tabela 8.5, 
em que temos representada a mesma distribuição de X e Y, dada antes na Tabela 8.3. 


Tabela 8.5 Distribuição conjunta de X e Y, como uma tabela de dupla entrada. 
apo prqeEo 


O |1/8/2/8/1/8|] 0 | 12 
1 O |1/8/2/8 | 1/8] 1/2 
8 


p() | 1/8 | 3/8 | 3/8 | 14 


A representação gráfica de variáveis aleatórias bidimensionais (X, Y) exige gráficos com três 
eixos: um para a v.a. X, outro para a v.a. Y e um terceiro eixo z para a probabilidade conjunta p(x, 
y). A Figura 8.1 representa a distribuição conjunta resumida na Tabela 8.5. A dificuldade em 
desenhar e interpretar tais gráficos nos leva, muitas vezes, a evitar o uso desse recurso tão 
valioso. 


Figura 8.1 Representação gráfica da v.a. (X, Y) da Tabela 8.5. 


Uma tentativa de representar distribuições de probabilidades discretas em duas dimensões é o 
gráfico de curvas de níveis. Esse é o mesmo recurso utilizado em mapas geográficos sobre 
relevos, indicando-se por meio de linhas as cotas (alturas) de mesma intensidade em uma região. 
Curvas de níveis podem ser usadas também em mapas meteorológicos, de marés etc. 

Embora tais mapas sejam usados principalmente para variáveis contínuas, vamos exemplificar 
abaixo sua construção para os dados da Tabela 8.5. Notamos que existem valores apenas para as 
probabilidades 0, 1/8, 2/8 e 3/8, e cada um deles define um conjunto de pontos. Por exemplo, 
correspondendo à probabilidade 1/8 temos o conjunto de pontos (0, 0), (1, 1), (2, 0) e (3, 1). Na 
Figura 8.2 (b), representamos esses pontos, que corresponderiam à “curva de nível” para a cota 
1/8. De modo análogo, traçaríamos as demais curvas de níveis. A Figura 8.2 (e), reunindo todos 
os resultados, seria “equivalente” à Figura 8.1. Assim, os pontos representados por x formariam 
a curva de nível da cota 1/8; os pontos representados por º formariam a curva de nível com cota 
(probabilidade) 2/8, e assim por diante. Esse recurso é mais bem visualizado para variáveis 
contínuas, como na Figura 8.17. 


Figura 8.2 Curvas de níveis para a Tabela 8.5. (a) p(x, y) = O (b) p(x, y) = 1/8 (c) p(x, y) = 2/8 (d) todas as cotas 
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8.2 Distribuições Marginais e Condicionais 


Da Tabela 8.5, podemos obter facilmente as distribuições de X e Y. A primeira e última 
colunas da tabela dão a distribuição de Y, (y, p(y)), enquanto a primeira e última linhas da tabela 
dão a distribuição de X, (x, p(x)). Essas distribuições são chamadas distribuições marginais. 

Observamos, por exemplo, que 


PX=D=P(X=1,Y=0)+P(X=1,Y=1)=2/8+1/8=3/8 
PY=0=P(X=0,Y=0+P(X=1,Y=0+P(X=2,Y=0+P(X=3,Y=0) 
=1/8+2/8+1/8+0=1/2. 


Portanto, para obter as probabilidades marginais basta somar linhas e colunas. 


Quando estudamos os aspectos descritivos das distribuições com mais de uma variável, vimos 
que, às vezes, é conveniente calcular proporções em relação a uma linha ou coluna, e não em 
relação ao total. Isso é equivalente aqui ao conceito de distribuição condicional. Por exemplo, 
qual seria a distribuição do número de meninos, sabendo-se que o primeiro filho é do sexo 
masculino? Ou seja, queremos calcular a probabilidade P(X = x|Y = 1). Da definição de 
probabilidade condicional, obtemos 


P(X =x,Y =1) 


PE cao =D 


=p(xY=1), (8.1) 

parax=0, 1, 2, 3. Pela Tabela 8.5 obtemos, por exemplo, 

P(X=2,Y=1) 2/8 
P(Y=1) “12” 


p(2lr=1)=P(X =2|7=1)= 
Do mesmo modo, obtemos as demais probabilidades e a distribuição condicional de X, dado 
que Y= 1, está na Tabela 8.6. 


Tabela 8.6 Distribuição condicional de X, dado que Y= 1. 


p(x|Y = 1) | 1/4 | 1/2 | 1/4 


Observe que 5, p(xY = 1)=p(OY=1)+..+p(G|Y=1)=1. 
Do mesmo modo, podemos obter a distribuição condicional de Y, dado que X = 2, que está na 
Tabela 8.7. 


Tabela 8.7 Distribuição condicional de Y, dado que X = 2. 


y 0 di 


pO|X= 2) | 1/3 | 2/3 


Podemos generalizar o que foi dito acima para duas v.a. X e Y quaisquer, assumindo os valores 
Xp Xp 5 X, CYp Yo «=» Ym respectivamente. 


Definição. Seja x, um valor de X, tal que P(X = x) = p(x)) > 0. A probabilidade 
P(r=» ca E ap (9.2) 


é denominada probabilidade condicional de Y = y, dado que X =x,. 
Como observamos acima, para x, fixado, os pares (Y, P(Y = y|X = x)), j = 1, ..., m, definem a 
distribuição condicional de Y, dado que X = x, pois 
m a P(Y=y,X=x) P(X=x,) 
= , = ENT É = A = 
2P(r piegas Fal 


J=1 


Considere a distribuição condicional de X, dado que Y = 1, da Tabela 8.6. Podemos calcular a 
média dessa distribuição, a saber 


l l l 
=lI|= amas 2 O mm — = 
E(x|y 1) Ixg+2x5+3%5 PA 


Observe que E(X) = 1,5, ao passo que E(X|Y = 1) = 2. 
De modo geral temos a seguinte definição. 


Definição. À esperança condicional de X, dado que Y = y, é definida por 


E(x|r=»,)= SxP(x= x =3;). 
t= 


Uma definição análoga vale para E(Y|X = x,). 


Exemplo 8.2 Para a distribuição condicional de Y, dado que X = 2, da Tabela 8.7, temos 
nt é 
E(VIX=2)-=0xq+lxq=s. 


Exemplo 8.3 Considere, agora, a distribuição conjunta das variáveis Y e Z, definidas no Exemplo 
8.1. Da Tabela 8.1 obtemos a Tabela 8.8. Aqui, observamos que 
P(Z =2,Y =y) 


P(Z=z|r=y)= PT =) 


= P(Z =2z) 


para quaisquer z = 0, 1,2 ey = 00, 1. O que significa dizer que 

P(Z=2 == PM=zPW=y), 
isto é, a probabilidade de cada casela é igual ao produto das respectivas probabilidades 
marginais. Por exemplo, 


p(z=1jr=1)=5=5x5=P(Z=1)P(r=1) 


Tabela 8.8 Distribuição conjunta de Y e Z. 


Também é verdade que 
PY =yZ=2)=P(Y=y) 
para todos os valores de y e z. Dizemos que Y e Z são independentes. 


Definição. As variáveis aleatórias X e Y, assumindo os valores x,, X,, ... € Y, Y> -.., respectivamente, 
são independentes se, e somente se, para todo par de valores (x, y,) de X e Y, tivermos que 


P(X =x, Y=y)=P(X=x)P(Y=y). (8.3) 


Basta que (8.3) não se verifique para um par (x, y;), para que X e Y não sejam independentes. 


Nesse caso, diremos que X e Y são dependentes. Essa definição pode ser estendida para mais de 
duas variáveis aleatórias. 


1. Lançam-se, simultaneamente, uma moeda e um dado. 
(a) Determine o espaço amostral correspondente a esse experimento. 
(b) Obtenha a tabela da distribuição conjunta, considerando X o número de caras no lançamento da moeda e Y o número da 
face do dado. 
(c) Verifique se X e Y são independentes. 
(d) Calcule: 
1.P(X=1) 
2.P(X<1) 
3.P(X<1) 
4.P(X=2,Y=3) 


5.P(X>0,Y<4) 
6.P(X=0,Y>1) 

2. A tabela abaixo dá a distribuição conjunta de X e Y. 
(a) Determine as distribuições marginais de X e Y. 
(b) Obtenha as esperanças e variâncias de X e Y. 

(c) Verifique se X e Y são independentes. 
(d) Calcule P(X = 1|Y=0)e P(Y=2|X= 3). 
(e) Calcule P(X<2)e P(X=2,Y< 1). 


3. Considere a distribuição conjunta de X e Y, parcialmente conhecida, dada na tabela abaixo. 
(a) Complete a tabela, considerando X e Y independentes. 
(b) Calcule as médias e variâncias de X e Y. 
(c) Obtenha as distribuições condicionais de X, dado que Y = 0, e de Y, dado que X = 1. 


a jo/1 |PW=y 


1/3 
1/4 1/4 


8.3 Funções de Variáveis Aleatórias 


Retomemos a Tabela 8.5, que dá a distribuição conjunta das variáveis aleatórias X e Y. A partir 
dela, podemos considerar, por exemplo, a v.a. X+ Y, ou a v.a. XY. A soma X + Y é definida 
naturalmente: a cada resultado do experimento, ela associa a soma dos valores de X e Y, isto é, 


(X + Yo) = X(0) + Y(0). (8.4) 
Do mesmo modo, 
(XY(0w) = X(0) Y(0). (8.5) 
Podemos, então, construir a Tabela 8.9. 


Tabela 8.9 Funções de variáveis aleatórias. 


Coy) |Xx+Yy|XY | plxy) 


(0, 0) 
(0, 1) 
(4,0) 
4,1) 
(2,0) 
(2,1) 
(3,0) 
(3, 1) 


Ep wwNNHHoO 
ww omnNomooo 
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A partir dessa tabela, obtemos as distribuições de X + Y e XY, ilustradas nas Tabelas 8.10 e 
Bl; 


Tabela 8.10 Distribuição de X + Y. 


xty [0|1|2|3]4 


p(x+y) | 1/8 | 2/8 | 2/8 | 2/8 | 1/8 


xy 0 1 2 3 
p(xy) | 4/8 | 1/8 | 2/8 | 1/8 


Vimos, no Capítulo 6, como calcular a esperança de uma v.a. Para as va Xe Y da Tabela 8.5, 
temos: 


Tabela 8.11 Distribuição de XY. 


| 3 3 4 Z 
E(X)=0xp+ixg+2x0+3xo= = 


oa 
=0x>+1x-=0,5. 
E(Y) 0x> + Xs 5 
Da Tabela 8.10, obtemos 
IaZaidaLsTã 
E(X+F)-0xqrIixç+2x gtxgrixç= q e2 
Notamos que E(X + Y) = E(X) + E(Y). Poderia ser uma simples coincidência, mas essa relação 
é de fato verdadeira. 


Teorema 8.1 Se X for uma v.a. com valores x,, ..., x, e probabilidades p(x,), ..., p(x,), Y for uma v.a. 
com valores y,, ..., Ym & probabilidades p(y;), ..., P((Yn) ese px, Y)=P(X =x, Y=y)i=1,..,n, 
j=1,..., m, então 

E(X + Y) = E(X) + E(Y). (8.6) 


Prova. Observando a Tabela 8.9, podemos escrever 
E(X+Y)= S3(x +3,)p(x,.»,) 
=5 5 xp(xs,) +55 mp(xo) 
11 ja 


= j= 


(8.7) 


Mas, para um i fixo, 5" p(x,.y,)=p(x) e para um j fixo, 5º p(x,y,)=»p(»,blogo, podemos 
escrever 


E(X)= > xp(x, )= >'s > p(3) )= >> xP(t03,) 


1=1 


E(r)= > (x, )= >); > p(xy, )= >>, 2p(x0); ). 
Ja = ia j=l 
Comparando essas duas últimas relações com (8.7), obtemos a relação (8.6). 
Do que foi visto acima, podemos concluir que, se X e Y são duas v.a. nas condições do 
Teorema 8.1, e se g(X, Y) for uma função de X e Y, então 
Ele (x 1)]= 5 > e(x, p(x.3,): (8.8) 


t=1 j=1 


Exemplo 8.4 Da Tabela 8.9 temos 


E(XF)=0x5+0x0+0x 5 +1x 7 


+2x5+0x0 
+3xga gal. 

É claro que o mesmo valor pode ser obtido da Tabela 8.11, isto é, se W = XY e p(w) = p(xy), 

então 
E(W) = E(XP) = Ox qe lx pax d+ 3x ol 
Observamos que, neste caso, 
ECW) = E(XY) = 1 2 EQOE() = (1,5) (0,5) = 0,75, 

ou seja, de modo geral, a esperança de um produto de duas v.a. não é igual ao produto das 


esperanças das v.a. No entanto, existem situações em que essa propriedade se verifica. O teorema 
seguinte apresenta uma dessas situações. 


Teorema 8.2 Se X e Y são variáveis aleatórias independentes, então 

E(XY) = E(X) E(Y). (8.9) 
Prova. Nas condições do Teorema 8.1, usando (8.8) e (8.3), 

E(XY)= o: D327/2E07 ) = >> x»,p (x, del»; ), 

1=1 ja = ja 

logo, 
E(XN)=D x p(x)S y,p(v,)=E(X)E(M). 
t=1 JH 
A recíproca do Teorema 8.2 não é verdadeira, isto é, (8.9) pode ser válida e X e Y serem 

dependentes. Veja o Exemplo 8.7 abaixo. 


Observações. (1) Se tivermos um número finito de v.a. X,, ..., X, então (8.6) toma a forma 
E(X, +... +X) = E(X)+... + E(X). (8.10) 

(ii) Se X,, ..., X, forem v.a. independentes, então 
E(X,X, ... X) = E(X) E(X)) ... E(X,). (8.11) 


Exemplo 8.5 Nas Seções 6.6.2 e 6.6.3, definimos a v.a. de Bernoulli e a v.a. binomial. Seja X o 
número de sucessos em n provas de Bernoulli. Definamos 
X - | I, se no i-Ésimo ensaio ocorreu sucesso 
“10, se no i-Esimo ensaio ocorreu fracasso, 


i=1,2,..., n. Então, segue-se que 
X=EXAX, +. +X, 
eX,, ... X, são independentes. Se p = P(sucesso), então 
E(X)-=1xp+0x(1-p)=p,i=1,..n 
e, por (8.10), 
EQO = E(X) +... + E(X) = np, 


o que demonstra a relação (6.16). A relação (6.17) será demonstrada na seção seguinte. 


Problemas 


4. No Problema 2, obtenha as distribuições de X + Y e de XY. Calcule E(X + Y), E(XY), Var(X + Y), Var(XY). 
5. (a) No Problema 3, calcule E(X + Y) e Var(X + Y). 
(b) Se Z = aX + bY, calcule a e b de modo que E(Z) = 10 e Var(Z) = 600. 
6. Dois tetraedros (dados com quatro faces) com as faces numeradas de um a quatro são lançados e os números das faces 
voltadas para baixo são anotados. Sejam as v.a.: 
X: maior dos números observados; 
Y: menor dos números observados; 
Z=X+7Y. 
(a) Construa a tabela da distribuição conjunta de X e Y. 
(b) Determine as médias e as variâncias de X, Ye Z. 
7. Numa urna, há cinco tiras de papel, numeradas 1, 3, 5, 5, 7. Uma tira é sorteada e recolocada na urna; então, uma segunda tira 
é sorteada. Sejam X4 e X, o primeiro e o segundo números sorteados. 
(a) Determine a distribuição conjunta de X, e X,. 
(b) Obtenha as distribuições marginais de X, e X,. Elas são independentes? 
(c) Encontre a média e a variância de X,, Xp e X = (X, + X5)/2. 
(d) Como seriam as respostas anteriores se a primeira tira de papel não fosse devolvida à urna antes da segunda extração? 
8. Numa urna, há cinco bolas marcadas com os seguintes números: -1, O, 0, O, 1. Retiram-se três bolas, simultaneamente; X 
indica a soma dos números extraídos e Y o maior valor da trinca. Calcule: 
(a) Função de probabilidade de (X, Y). 
(b) E(X) e Var(X). 
(c) Var(X + Y). 
9. Dada a distribuição conjunta de X e Y abaixo, determine a média e a variância de: 
(a) X + Y. 
(b) XY. 


(a) Determine a f.p. de X+ Ye, a partir dela, calcule E(X + Y). Pode-se obter a mesma resposta de outra maneira? 
(b) Determine a f.p. de XY e, em seguida, calcule E(XY). 
(c) Mostre que, embora E(XY) = E(X) E(Y), X e Y não são independentes. 
8.4 Covariância entre Duas Variáveis Aleatórias 
Vamos introduzir agora uma medida da relação linear entre duas variáveis aleatórias. 
Definição. Se X e Y são duas v.a., a covariância entre elas é definida por 
Cov(X, Y) = ELX - EQ) - EW))], (8.12) 


ou seja, o valor médio do produto dos desvios de X e Y em relação às suas respectivas médias. 
Suponha que X assuma os valores x, ..., x, e Y os valores y,, ... Yp e que P(X =x, Y=y)= 
P(x, Y)). Então, (8.12) pode ser escrita 


Cov(X,Y)= 


1= 


[x -E(x)][»,- E(M)]p(x,»,). (8.13) 


Ma 


A Fórmula (8.12) pode ser escrita de uma forma mais simples. Note que 
Cov(X, Y) = ELXY — XE(Y) — YEQO + EQOE(Y)] 
= E(XY) — EQ)EMY) — E) EQ) + EQOEM), 
ou seja, 
Cov(X, Y) = E(XY) - E(X) E(Y). (8.14) 

Exemplo 8.6 Para as v.a. X e Y do Exemplo 8.1 (veja a Tabela 8.5), obtemos 

E(X) = 1,5, E(Y) = 0,5, E(XY) = 1,0, 
de modo que 

Cov(X, Y) = 1,0— (1,5) (0,5) = 0,25. 


Definição. Quando Cov(X, Y) = 0, dizemos que as variáveis aleatórias X e Y são não 
correlacionadas. 


Exemplo 8.7 Consideremos a distribuição conjunta de X e Y dada pela Tabela 8.12. 


Tabela 8.12 Distribuição conjunta para o Exemplo 8.7. 


FIRIERERE 


1 | 3/20 | 3/20 | 2/20 | 8/20 
2 | 1/20 | 1/20 | 2/20 | 4/20 
3 | 4/20 | 1/20 | 3/20 | 8/20 


p(9 | 8/20 | 5/20 | 7/20 | 1,00 


Temos que: 


8 5 gs 

=0x — = +2x > =0,95, 
E(X) 0x q +1x55+2x509 70,95 
8 
20 * 
3 3 2 l l 
X20"1X50*2X50*0%50*2*X50 

4 


2 l 3 
+ 4x50+0x 20 *3*50 +6x 20 = 1,90, 


4 8 
E(Y)=Ix 2x5) +3x 50 2,00, 


E(XY)=0 


do que obtemos 
Cov(X, Y) = 1,90 — (0, 95)(2,00) = 0. 
Portanto, as v.a. X e Y desse exemplo são não correlacionadas. 


Exemplo 8.3 Retomemos o Exemplo 8.3, para o qual vimos que Y e Z são independentes. É fácil ver 
que E(Z) = 1 e E(Y) = 1/2. Da Tabela 8.8 obtemos que E(YZ) = 1/2, do que decorre que a 
covariância entre Y e Z é zero. 


De modo geral, se X e Y forem independentes, então (8.9) é válida, logo, por (8.14) temos que 
Cov(X, Y) = 0. 
Vamos destacar esse fato por meio da Proposição 8.1. 


Proposição 8.1 Se X e Y são duas variáveis aleatórias independentes, então Cov(X, Y) = 0. 


Em outras palavras, se X e Y forem independentes, então elas serão não correlacionadas. A 
recíproca não é verdadeira, isto é, se tivermos Cov(X, Y) = 0, isso não implica que X e Y sejam 
independentes. De fato, para as v.a. do Exemplo 8.7, a covariância entre X e Y é zero, mas X e Y 
não são independentes, como podemos facilmente verificar. 

Podemos agora demonstrar o 


Teorema 8.3 (a) Para duas v.a. X e Y quaisquer, temos 
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y); (8.15) 
(b) se X e Y forem independentes, então 
Var(X + Y) = Var(X) + Var(Y). (8.16) 
Prova. 
(a) Var(X + Y) = EI(X + Y) — E(X + VP = ELX — E(X) + Y — EGP 
= EX — E(X)| + ElY — EMP + 2E[(X — EQO)Y — E(Y)], e da definição de covariância, 
obtemos (8.15). 
(b) A relação (8.16) segue imediatamente da Proposição 8.1. 
As relações (8.15) e (8.16) podem ser generalizadas para mais de duas variáveis. Em 
particular, se X,, ..., X, são v.a. independentes, então 
Var(X, +... +X)= Var(X) +... + Var(X,). (8.17) 
Exemplo 8.5 (continuação) Temos que 
Var(X;)) = p(1 — p), paratodo i= 1, ...., n, 
logo 
Var(X) = Var(X) +... + Var(X) = np(1 — p), 
o que demonstra a relação (6.17). 


Vamos introduzir agora uma medida que não depende das unidades de medida de Xe Y. O 
análogo descritivo para dois conjuntos de dados foi introduzido na Seção 4.5. 


Definição. O coeficiente de correlação entre X e Y é definido por 


Cov(X,Y) 


p(X,Y)= 
Exemplo 8.9 Para X e Y do Exemplo 8.7, a covariância entre X e Y é zero, logo p(X, Y) = O. Para X e 
Y do Exemplo 8.6, temos que Cov(X, Y) = 0,25. Verifique que Var(X) = 0,75, Var(Y) = 0,25, logo 

0,25 
X,Y) = === = 0,58. 
p(xr) ((0,75)(0,25) 
O seguinte resultado será demonstrado no Problema 48. 
Teorema 8.4 O coeficiente de correlação entre X e Y satisfaz a desigualdade 
I<p(X,Y<1. 


O coeficiente de correlação é uma medida da relação linear entre X e Y. Quando 
p(X, Y) = +1, existe uma correlação perfeita entre X e Y, pois Y =aX + b. Sep(X,YW =1,a>0,e 


se p(X, W =-1,a<0.0O grau de associação linear entre X e Y varia à medida que p(X, Y) varia 
entre -1e +1. 

As seguintes propriedades podem ser provadas facilmente (ver Problema 38). Se a e b são 
constantes, então: 


p(X + a, Y+b)=p(X, Y), (8.19) 
(x). (8.20) 


ab 
Ou seja, se ab > 0, p(aX, bY) = p(X, We se ab< 0, p(aX, bY) = -p(X, Y). 


Exemplo 8.10 Ainda usando o enunciado do Exemplo 8.1, defina a v.a. W como o “número de 
meninas”. A distribuição conjunta de X e W está na Tabela 8.13. 


p(aX,bY)= 


Tabela 8.13 Distribuição conjunta de X e W para o Exemplo 8.10. 


WX| 0 1 2 3 | p(w) 
0 0 | 0 | 0 /1/8|] 1/8 
1 010 /38|] 0 | 3/8 
2 0/38] 0 | 0 | 3/8 


É fácil ver que 


E(X) = E(W) = 1,5, 
Var(X) = Var(W) = 0,75, 
E(XW) = 1,5, 


do que segue que Cov(X, W) = -0,75 e portanto p(X, W) = -1. Esse é um resultado esperado, pois 
sabemos que X=3-W. 

Para se analisar a possível correlação entre duas v.a. X e Y é conveniente usar os chamados 
diagramas de dispersão, que consistem no gráfico dos pares de valores de X e Y. 


Exemplo 8.11 Na Figura 8.3, temos os diagramas de dispersão para as va. Xe Ye Xe Z, do 
Exemplo 8.1.1 


Figura 8.3 Diagramas de dispersão para as v.a. do Exemplo 8.1. 
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Na Figura 8.3(a), ao lado dos pontos (1, 0) e (2, 1), colocamos o número 2, para mostrar que 
esses pares têm probabilidades 2/8, ao passo que os demais têm probabilidades 1/8. 


Exemplo 8.12 O diagrama de dispersão das v.a. Y e Z do Exemplo 8.2 está ilustrado na Figura 8.4. 
Lembremos que, nesse caso, Y e Z são independentes. 


Figura 8.4 Diagrama de dispersão para as v.a. Ye Z do Exemplo 8.2. 


Exemplo 8.13 Na Figura 8.5, temos o diagrama de dispersão das variáveis X e W do Exemplo 8.10. 
Observe que, nesse caso, existe uma relação linear perfeita entre as duas variáveis. 


Figura 8.5 Diagrama de dispersão para as v.a. Xe W do Exemplo 8.10. 


Problemas 


11. Para as v.a. Xe Y do Problema 2 e usando os resultados do Problema 4, calcule Cov(X, Y) e p(X, Y). 
12. Considere a situação do Problema 10 do Capítulo 6. 
(a) Obtenha as distribuições de X + Ye |X - Y. 
(b) Calcule E(XY), E(X/Y) e E(X + Y). 
(c) Verifique se X e Y são independentes. 
(d) Verifique se E(XY) = E(X) E(Y). O que você pode concluir? 
(e) Verifique se E(X/Y) = E(XE(Y). 
(f) Calcule Var(X + Y). É verdade que Var(X + Y) = Var(X) + Var(Y)? 
13. Sejam X e Y com a distribuição conjunta da tabela abaixo. Mostre que Cov(X, Y) = 0, mas X e Y não são independentes. 


14. Lançam-se dois dados perfeitos. X indica o número obtido no primeiro dado e Y o maior ou o número comum nos dois dados. 
(a) Escreva por meio de uma tabela de dupla entrada a distribuição conjunta de X e Y. 
(b) As duas variáveis são independentes? Por quê? 
(c) Calcule as esperanças e variâncias de X e Y. 
(d) Calcule a covariância entre X e Y. 
(e) Calcule E(X + Y). 
(f) Calcule Var(X + Y). 
15. Uma moeda perfeita é lançada três vezes. Sejam: 
X: número de caras nos dois primeiros lançamentos; 
Y: número de caras no terceiro lançamento; e 
S: número total de caras. 
(a) Usando a distribuição conjunta de (X, Y), verifique se X e Y são independentes. Qual é a covariância entre elas? 
(b) Calcule a média e a variância das três variáveis definidas. 
(c) Existe alguma relação entre os parâmetros encontrados em (b)? Por quê? 
16. Depois de um tratamento, seis operários submeteram-se a um teste e, mais tarde, mediu-se a produtividade de cada um deles. 
A partir dos resultados apresentados na tabela ao lado, calcule o coeficiente de correlação entre a nota do teste e a produtividade. 


Operário | Teste | Produtividade 


1 9 ao 
2 17 34 
3 20 29 
4 19 33 
5 20 42 
6 23 32 


17. O exemplo a seguir ilustra que p = O não implica independência. Suponha que (X, Y) tenha distribuição conjunta dada pela 
tabela abaixo. 

(a) Mostre que E(XY) = E(X) E(Y), donde p = 0. 

(b) Justifique por que X e Y não são independentes. 


8.5 Variáveis Contínuas 


Nesta seção, vamos considerar o caso de duas v.a. contínuas, X e Y. Nesse caso, a distribuição 
conjunta das duas variáveis é caracterizada por uma função f(x, y), chamada função de densidade 
conjunta de X e Y, satisfazendo: 


(a) f(x, y) > 0, para todo par (x, y); 

(b) [ist v)drdy=1, 

(c) PlasX <be<r<d)=[ [f(x y)drde. 

A relação (b) nos diz que o volume sob a superfície representada por f(x, y) é igual a 1. A 
relação (c) dá a probabilidade do par (x, y) estar num retângulo de lados b-a e d-c. 
Exemplo 8.14 Suponha que f(x, y) = 4xy, O<x<1,0<y<1. Então, (a) está satisfeita e 

fa fa Sxydedo = 4, xd fo dy = 4/2] o? [2] aii 

o que mostra que (b) também está satisfeita. 

Calculemos P(X < 1/2, Y < 1/2). A Figura 8.6 mostra o domínio de variação de X e Ye a região 


para a qual X< 1/2, Y< 1/2. Logo, por (c), 
P(X s1/2,Ys1/2)=P(0s X<s1/2,0sYs1/2) 


E i fi sdidy = ape 2 [2 p2]º =1/16. 


Figura 8.6 Domínio de variação de (X, Y) para o Exemplo 8.14. 


Exemplo 8.15 Suponha que a v.a. (X, Y) seja uniformemente distribuída no quadrado Q da Figura 
8.6. Isso significa que 


1(9)=| ERRANTE: (0.21) 


0, caso contrírio. 


Como vimos, (b) acima vale, logo h h cdxdy = 1 e segue-se que c = 1. Como a área de Q 
I 
ftea(O) 


De modo geral, podemos representar a densidade bidimensional f(x, y) por uma superfície no 
espaço tridimensional, como ilustra a Figura 8.8. 


é 1, na realidade c= - Veja a Figura 8.7. 


Figura 8.7 Densidade uniforme no quadrado de lado unitário, com densidade condicional representada. 


Se A for um evento, então a probabilidade P((X, Y) & 4) será representada pelo volume sob a 
superfície, delimitado pela região A, no plano (x, y), e pela superfície cilíndrica na Figura 8.8. 


Figura 8.8 Densidade como uma superfície no espaço e P((X, Y) E 4) = P(A). 
fx, 3) y 


P(A) 


x 


Se a densidade f(x, y) for positiva numa região qualquer R do plano (x, y), uma v.a. diz-se 
uniformemente distribuída sobre R se f(x, y) = 1/área(R), para (x,y) E R, e f(x, y) = O nos demais 
pontos. Veja a Figura 8.9. 


Figura 8.9 Distribuição uniforme na região R do plano (x, y). 


fls 3) 4 plano paralelo 


ao plano (x, z) 


Vimos que, no caso discreto, a partir da distribuição conjunta de duas v.a. X e Y, podíamos 
determinar a distribuição marginal de cada variável. O mesmo ocorre para v.a. contínuas. 


Frequentemente, usaremos a notação (X, Y) para denotar o par de v.a. e diremos que essa é 
uma v.a. bidimensional. Usamos, também, a nomenclatura vetor bidimensional. 


Definição. Dada a v.a. bidimensional (X, Y), com função densidade de probabilidade conjunta f(x, 
y), definimos as densidades marginais de X e Y respectivamente por 


REIS le fx, y)dy (8.22) 


fely)= E f(x, v)de. (8.23) 
Exemplo 8.16 Para as v.a. do Exemplo 8.14, temos 


Laelx) - (isody = 4d [2] =2x, Osxsil, 


(0) = fy ode =29, Osysl. 
Exemplo 8.17 Considere a v.a. (X, Y) com densidade conjunta 
2 
f(x,y) = O<x<l, I<y<e 


Então, as densidades marginais são dadas por 


2x € 
Sela) = [557 dy = 2x[tn(v)]] =2x, 0O<x<l, 
fkv)= 54-55] - I<y<e. 


Para o Exemplo 8.14, vemos que o produto das densidades marginais é igual à densidade 
conjunta, para todo par (x, y) do domínio [0,1] x [0,1], que é o produto cartesiano dos domínios 
de variação de X e Y. Dizemos que as v.a. são independentes. 

Definição. As variáveis aleatórias X e Y, com densidade conjunta f(x, y) e marginais f(x) e f()), 
respectivamente, são independentes se 
Os y) = 1x) 14), para todo par (x, y). (8.24) 
Exemplo 8.18 Se a função densidade conjunta de X e Y for dada por 
fo, y)=e-x-7,x>0,y>0, 

então é fácil ver que 

A) =e%x>0, 

hO9)=e7,y>0, 
de modo que X e Y são independentes. 

As definições de covariância, coeficiente de correlação etc. continuam, é claro, a valer para 
v.a. bidimensionais contínuas. Portanto, se X e Y são independentes, o coeficiente de correlação 
entre elas é zero. 

Exemplo 8.19 Calculemos o coeficiente de correlação entre X e Y, se a densidade conjunta delas for 
fo, y)=x+y,0<x<1,0<y<1. 


Temos que as marginais são dadas por 


fel) = filx+ y)do=2+1/2, 0<x<1, 

fo)= foice s)de= + 1/2, 0<y<l. 
A partir delas, calculamos médias e variâncias: 

E(X) = fix(x+1/2)de= 7/12= E(Y), 

E(X?) = fx(x+1/2)de=5[12= E(Pº), 

Var(X)=Var(Y) = 5/12 - 49/144 = 11/144. 
Para calcular a covariância entre X e Y necessitamos calcular 

E(XY) = f, fixo(x+ y) de do = f.(9/3+ 2/2) dy = 1/3. 
Logo, 
Cov(X, Y) = E(XY) — EGO E(Y) = 1/3 — (7/12)(7/12) = —1/144. 

Finalmente, o coeficiente de correlação entre X e Y é dado por 


Cov(X,Y) 1 
o(X)o(Y) II 


18. As v.a. Xe Y têm distribuição conjunta dada por 


p(X,Y)= 


Sadie ix(x- 2), 0<x<2, -x<y<x 
0, caso contro. 
(a) Faça um gráfico do domínio de variação de x e y. 
(b) Prove que Eis f(x,y) dxdy = 1. 
(c) Encontre as f.d.p. marginais de X e Y. 
(d) Encontre a P(X < 1). 
19. Suponha que as v.a. X e Y tenham f.d.p. 
f(x )= et, x>0,7>0 
dé 0, nos demais pontos. 


(a) Calcule as f.d.p. marginais de X e Y. 
(b) Calcule P(O<X<1,1<Y<2). 
(c) Calcule p(X, Y). 


8.6 Distribuições Condicionais Contínuas 


Nesta seção, vamos tratar de obter a distribuição condicional de uma variável, dado que a 
outra assume um particular valor. Como sabemos, para uma v.a. contínua X, a P(X = x) = 0, logo 
a definição a seguir tem de ser interpretada apropriadamente. 


Definição. A densidade condicional de X, dado que Y = y é definida por 
fareto)= LE), g()>0, (8.25) 
e a densidade condicional de Y, dado que X = x é definida por 


fra | x)= ts Le(x)>0. (8.26) 


A interpretação de (8.25), por exemplo, é a seguinte. Se Y = y,, considere o plano passando por 
Yo € paralelo ao plano (x, z). Esse plano determina, na superfície f(x, y) = z, a densidade 
condicional fyy(xly9). Mesma interpretação vale para (8.26). Suponha, por exemplo, que X denote 
o salário de um conjunto de indivíduos e Y denote o consumo deles. Então, fixado o consumo y,, 
a densidade condicional f,/xly,) representa a densidade dos salários para aquele nível fixado de 
consumo. Nas Figuras 8.7 e 8.10, ilustramos como essa densidade condicional pode ser 
representada. 


Exemplo 8.20 Suponha que a densidade de (X, Y) seja dada por 
fe, y)=6(1-x-y),0<x<1,0<y<1-x. 
O domínio de variação dos pares (x, y) é o triângulo da Figura 8.11. 


Figura 8.10 Densidade condicional de X, dado que Y = y,. 


plano paralelo 


ao plano (x, Z) 


Temos, então, que as densidades marginais são dadas por: 


fl)=f 6(1-x-»)y= b-m-2"/2], - Mx-1), 0<x<l, 


Lo)=[;6(i-x-»)de=3(»-1), 0<y<l. 
Consequentemente, as densidades condicionais são 
2l-x- 
gif ie 3), O<x<l-y, 
(»-1) 
2l-x-y 
fox (vlx)= ( ) O<y<l-x. 


(2-1) 
Observe que fyyx|y) define, de fato, uma densidade de probabilidade, para y fixado. Temos 
que 
Load = (O 1 (00)/6 (O) de= 1/6 (0) PS (x)de= 6 (9)/f (9) =. 
Por exemplo, se X = 0,5, fyx0|X = 0,5) = 4(1 — 27), O < y < 1/2. Essa é uma densidade que 
depende do valor observado de X. Assim, 
P(0<Y<1/2]X =0,5)= [6 (v0,5)d =4f;(1-2y)ay=1. 


Dado que f,Mxly) e fyx(Y|x) definem densidades de probabilidades, tem sentido calcular suas 
médias, variâncias etc. 


Definição. À esperança condicional de Y, dado que X = x, é definida por 
E(r|x)=[ fx (vlx)dy, (8.27) 
e definição análoga para E(X|y). 
Note que E(Y|x) é uma função de x, isto é, E(Y|x) = s(x), e é denominada curva de regressão de 


Y sobre x. Na realidade, E(Y|x) é o valor da variável aleatória E(Y|X). A mesma interpretação 
deve ser dada para E(Xly). A Figura 8.12 ilustra esses conceitos. 


Figura 8.12 Curvas de regressão de Y sobre x e de X sobre y. 
Er) | | pay 


Exemplo 8.21 Suponha que 


I/2,sex-yz0, xs2, x, yz0 
1e)=-to 


O domínio de variação de (x, y) está na Figura 8.13, juntamente com as curvas de regressão. 


caso contrírio. 


Figura 8.13 Curvas de regressão para o Exemplo 8.21. 
y 


Temos, então, 
Leo) = [,1/24y- x2, Q<x<2, 
f(v)=[ /2ds = 1-»/2, 0<y<2, 
e, portanto, as densidades condicionais são 
1/2 
E E (»lx)= x2 = I/x, O< y<x 
1/2 I 
pp (x|y)= I-»/2 = 2-»' y<x< 2. 
As esperanças condicionais serão dadas por 
l x 
E(rIx)= [yd= 5, 
2 | y 
E(X|y)=[,x5>p&e=1+5. 


Note, portanto, que ambas as curvas de regressão são funções lineares, como ilustra a Figura 
8.13. No caso geral, a Figura 8.14 mostra como seriam essas médias condicionais. 


Figura 8.14 Representação gráfica da curva de regressão de Y sobre x. 


Observe, também, que se, por exemplo, X = 1, E(Y|1) = 1/2. 


20. Calcule PAO) e fd x(Ylx) para a densidade do Problema 18. 
21. Calcule as densidades condicionais para o Problema 19. Comente. 
22. Calcule as densidades marginais e condicionais para a v.a. (X, Y), com f.d.p. 


fx, y) = (1/64)(x +y), 0<x<4,0<y<4. 


23. Mesmos itens do Problema 22 para a f.d.p. conjunta 


fix, y) =3e8t 9, x>0,y>0. 


24. Calcule as esperanças condicionais E(Y|x) e E(Xly) para o Problema 21. 

25. Calcule as esperanças condicionais para o Problema 22. 

26. Prove que E(E(X|Y)) = E(X). 

(Sugestão: E(X|y) é uma função de y e, portanto, é uma v.a. Na realidade, E(Xly) é o valor da v.a. E(X|Y)!. Considere a expressão 
para E(Xly) e tome a esperança novamente. Mude a ordem das integrais e obtenha o resultado.) 


8.7 Funções de Variáveis Contíinuas 


O tratamento desta seção é uma extensão daquele para uma variável contínua (ver Seção 7.6). 
Considere duas variáveis X e Y, com função densidade conjunta f(x, y) e suponha que queremos 
obter a densidade das variáveis Z e W, tais que 

Z=h(X,Y) 
W=h(X, Y) 
Suponha que possamos expressar x e y em função de z e w, isto é, 
X= 9i(z, w), 
y=9z, w). 

Supondo que as derivadas parciais de x e y, em relação a z e w, existam e sejam contínuas, 

podemos obter a densidade conjunta de Z e W por meio de 


g(z, w) = flgi(z, w), 92, w)hJh, (8.28) 


em que J é o Jacobiano da transformação que leva (x, y) em (z, w), dado por 
dx dx 


RE dw 


o à 


oz àw 


J 


No caso unidimensional, Y = h(X), J era simplesmente s , com x = h'(y). 


Exemplo 8.22 Retomemos o Exemplo 8.14, no qual tínhamos 
O) =2x,0<x<1, 
HO) =27,0<y<1, 


e Xe Y eram independentes. 
Suponha que queiramos determinar a densidade F(z) da v.a. Z = XY. Considere W = Xe, 


portanto, x= w, y=? e o Jacobiano é 
w 


de modo que 
d4z 


z 
=—,0<w<l,0<—<l 
w w 


g(zm)=awEl 
Segue-se que O<z<w<1 ea densidade de Z é obtida por 


fole) = fie(em)dio= [CE va 42 en(z), O<z<l. 


27. Encontre a densidade de Z = X+ Y para X e Y v.a. independentes, com fy(x) = 2x, 0<x<1efy(y)=2y,0<y<1. 

(Sugestão: considere 0<z<1e1l<z<2.) 

28. Se X tiver densidade f(x) = 2x, 0<x<1eY tiver densidade f(y) = y/9, 0 <y<3e forem independentes, encontre a 
densidade de W = XY. 


29. Encontre a densidade de Z = X/Y, se X e Y são independentes, com densidades fy(x) = e, x>0e fy)y) = 2e-2, y>0. 
(Sugestão: z=x/y, Ww=).) 


8.8 Distribuição Normal Bidimensional 


Assim como a distribuição normal é um modelo importante para variáveis contínuas 
unidimensionais, para v.a. contínuas bidimensionais podemos considerar o modelo normal 
bidimensional, definido a seguir. 


Definição. A variável (X, Y) tem distribuição normal bidimensional se sua densidade conjunta for 


dada por 
E ] | x*—| ' (x—p)(y—H,) y-u, i 
Ha y)= 210,0, 1-p? cof o, ds G,0, 5] ! 


(8.29) 
para -00 < x < 00, -00 < Yy <00, 

Aqui, estamos usando a notação exptz) = e”. 

Vemos que a densidade em questão depende de cinco parâmetros: as médias p, e p, que 
podem assumir quaisquer valores reais, as variâncias 0º, e 0?,, que devem ser positivas, e O 
coeficiente de correlação p entre X e Y, que deve satisfazer -1 <p <1. 

Dois exemplos de gráficos dessa densidade estão representados na Figura 8.15. 


Figura 8.15 f.d.p. de normais bidimensionais. 


()n,=H,-0,9,=0,=1,p=0.(b)p,=h,=0,0,=0,=1,p=0,6. 


As seguintes propriedades podem ser demonstradas: 
(a) As distribuições marginais de X e Y são normais unidimensionais, a saber 


X-N(po ), Y- Mp, 02). 
(b) p = Corr(X, Y). 
(c) As distribuições condicionais são normais, com 
fix (ix) (1, +pqile- ni os(1-99), 


Fey (xly)- nu. +po(y-n),o2(1- pº)) 


Ou seja, as médias condicionais são funções lineares. Ver Figura 8.16. 


Figura 8.16 Curva de regressão de X sobre y para o caso da normal bidimensional. 


Lalatby) 


Se chamarmos z =f(x, y), então z = c, constante, determina sobre a superfície uma curva de 
nível, que nesse caso é uma elipse. Variando c, teremos as diversas curvas de nível (que são 
curvas em que a densidade de probabilidade é constante), semelhantes às curvas de nível de um 
mapa de relevo. No caso em que p = 0 e as variâncias são iguais, isto é, 0?,= o?, , essas curvas 
serão círculos. Veja a Figura 8.17. 


Figura 8.17 Curvas de nível para a normal bidimensional. 


ya y4 


My 


=, 


Et- 
h — 


x 


p>0 E=a 
p=0 


Vimos que p = O significa que as variáveis X e Y são não correlacionadas. Aqui, poderemos 
concluir algo mais. Nessa situação, poderemos escrever a densidade (8.29) como 


eloa 4) 


(x, y)= e? mod “ | (8.30) 


l 
ER 


isto é, a densidade conjunta é o produto das duas marginais, que sabemos serem normais. Ou 
seja, concluímos que X e Y são independentes. Portanto, no caso em que X e Y tiverem densidade 
conjunta normal bivariada, p = O é equivalente à independência entre X e Y. 


8.9 Problemas Suplementares 


30. Um sinal consiste numa série de vibrações de magnitude X, tendo os valores -1, 0, 1, cada um com probabilidade 1/3. Um 
ruído consiste numa série de vibrações, de magnitude Y, tendo os valores -2, 0, 2, com probabilidades 1/6, 2/3, 1/6, 
respectivamente. Combinando-se o sinal com o ruído, obtemos o sinal efetivamente observado, Z = X + Y. Construa a função de 
probabilidade para Z e calcule a sua média e variância, admitindo que sinal e ruído são independentes. 

31. Numa comunidade em que apenas dez casais trabalham, fez-se um levantamento no qual foram obtidos os seguintes valores 
para os rendimentos anuais: 


Casal | Rendimento do Homem (X) | Rendimento da Mulher (Y) 
1 10 5 
2 10 10 
3 5 5 
4 10 5: 
5 15 5 
6 10 10 
VA 5 10 
8 15 10 
9 10 10 
10 E) 10 


Um casal é escolhido ao acaso entre os dez. Seja X o rendimento do homem e Y o da mulher. 
(a) Construa a distribuição de probabilidade conjunta de X e Y. 
(b) Determine as distribuições marginais de X e Y. 
(c) Xe Y são v.a. independentes? Justifique. 
(d) Calcule as médias e variâncias de X e Ye a covariância entre elas. 
(e) Considere a v.a. Z igual à soma dos rendimentos de cada homem e mulher. Calcule a média e variância de Z. 
(f) Supondo que todos os casais tenham a renda de um ano disponível, e que se oferecerá ao casal escolhido a possibilidade de 
comprar uma casa pelo preço de 20, qual a probabilidade de que o casal escolhido possa efetuar a compra? 
32. Suponha que realizemos um experimento e os resultados possíveis sejam 01, 05, 03, 04, Os. Definamos as v.a. X e Y cujos 


valores em cada ponto são dados na tabela a seguir. 


Resultado 


Obtenha as distribuições de probabilidades de X, Y, X+ Y, X-Y-1 e X- Y, supondo que os cinco resultados tenham a mesma 
probabilidade. Faça um diagrama de dispersão para as variáveis X e Y. Idem para X e X+ Y. 
33. Numa sala estão cinco crianças cujas idades são (em anos): 3, 3, 4, 5, 5. Escolhem-se três crianças ao acaso para formar uma 
trinca. X indica a idade da mais nova da turma, e Y a da mais velha. 

(a) Escreva a f.p. conjunta de X e Y. 

(b) Calcule E(X) e Var(X). 

(c) Calcule Cov(X, Y). 

(d) Calcule Var(X + Y). 
34. A distribuição de notas de certo tipo de teste é normal com Hj = 70 e og; = 10 para os homens e gy = 65 e oy = 8 para as 
mulheres. Se esse teste for proposto numa classe na qual o número de homens é igual ao dobro do número de mulheres, qual a 
porcentagem de pessoas que deverá obter nota maior que 80? 
35. Se E(X) = pe Var(X) = 02, escreva em função de n e 02 as seguintes expressões: 

(a) EQ) (b) ELXCX - 1]. 
36. Num estudo sobre rotatividade de mão de obra, foram definidas para certa população as v.a. X = número de empregos que um 
funcionário teve no último ano e Y = salário. Obteve-se a seguinte distribuição conjunta: 


YX 1 2 É, 4 


800 0 0 0,10 | 0,10 
1.200 0,05 0,05 0,10 | 0,10 
2.000 0,05 0,20 0,05 | O 
5.000 0,10 0,05 0,05] O 


São dados: E(X) = 2,5, DP(X) = 1,0, E(Y) = 2.120, DP(Y) = 1.505,2. 
(a) Calcule P(X = 2) e P(X = 2|Y = 1.200); X e Y são independentes? 
(b) Obtenha o coeficiente de correlação entre X e Y e interprete esse coeficiente para as variáveis em estudo. 
37. Uma urna contém três bolas numeradas 0, 1, 2. Duas bolas são retiradas ao acaso e sucessivamente. Sejam as v.a. X = número 
da primeira bola retirada e Y = número da segunda bola retirada. Calcule: 
(a) E(XY) (b) Cov(X, Y) (0) Var(X + Y), 
nos casos em que as bolas são retiradas (i) com reposição; (ii) sem reposição. 
38. Prove as relações (8.19) e (8.20) do texto. 
39. Se p(X, Y) for o coeficiente de correlação entre X e Y, e se tivermos que Z = AX + B, W=CY+D, com A>0,C>o0, prove 
que p(X, Y) = p(Z, W). 
40. Uma urna contém n bolas numeradas de 1 até n. Duas bolas são retiradas sucessivamente, sem reposição. Determine a 
distribuição do módulo da diferença entre os dois números observados. 
41. Suponha que X e Y sejam v.a. com Var(X) = 1, Var(Y) = 2 e p(X, Y) = 1/2. Determine Var(X - 2Y). 
42. Sejam Xe Y v.a. com E(X) = E(Y) = 0 e Var(X) = Var(Y) = 1. Prove que p(Z, U) =0,seZ =X +YeU=X-Y. 
43. As v.a Xe Y do Problema 18 são independentes? Justifique. 


44. Mostre que X e Y do Problema 19 são independentes. 


45. Se Xj, ..., Xy São v.a. independentes, cada X, com média p; e variância o? 


(X, +... + Xy)/n. 
46. Refaça o problema anterior para o caso de as v.a. terem todas a mesma média q e a mesma variância 02. 


47. Suponha que X - b(n, p) e Y - b(m, p), sendo ainda X e Y v.a. independentes. Mostre que X + Y - b(m + n; p). 
48. Se Xe Y forem v.a. independentes, com distribuições de Poisson, com parâmetros À, e À, respectivamente, mostre que X + Y 


pi=1,2,...,n, calcule E(-X) e Var(-X), com —X = 


terá distribuição de Poisson com parâmetro À, + À». 
49. Prove (8.9) para v.a. Xe Y contínuas. 


8.10 Complementos Metodológicos 


1. Um resultado importante é o seguinte: se X,,..., X,, são variáveis normais e independentes, então alX, + a2X5+...+ a,X, será 
uma v.a. normal, sendo aí,...,a, constantes. 
Suponha X - N (n; 92;), para i = 1,2,...,n. 
Calcule a média e variância de y = sa aX,. 
2. Vamos provar que —-I<s ps. 
Suponha E(X) = w, E(Y) = ny, Var(X) = Ec Var(Y) = 2 », Cov(X, Y) = 045. Então, o coeficiente de correlação entre X e Y é dado 
por 
o, 


(rpm a 


A função 
fio = EX np + - po 
EX -n) + AX py -n)+ PY - 09? 
=0º, +2t0,, + Po”, 


é sempre positiva ou nula, quaisquer que sejam os parâmetros DR ao e 012. Sendo um polinômio do segundo grau em t, o seu 
discriminante deve ser negativo ou nulo, isto é, 
A=402 -4aioi <0, 


2 
ot2 | 51 
ao; , 


do que decorre 


que implica p? <1e, finalmente, -1<p<1. 


Capítulo 9 


Noções de Simulação 


9.1 Introdução 


Nos capítulos anteriores, aprendemos a construir alguns modelos probabilísticos simples, que 
são úteis para representar situações reais, ou então para descrever um experimento aleatório. 
Notamos, também, que se especificarmos um espaço amostral e probabilidades associadas aos 
pontos desse espaço, o modelo probabilístico ficará completamente determinado e poderemos, 
então, calcular a probabilidade de qualquer evento aleatório de interesse. 

Muitas vezes, mesmo construindo um modelo probabilístico, certas questões não podem ser 
resolvidas analiticamente e teremos de recorrer a estudos de simulação para obter aproximações 
de quantidades de interesse. De modo bastante amplo, estudos de simulação tentam reproduzir 
num ambiente controlado o que se passa com um problema real. Para nossos propósitos, a 
solução de um problema real consistirá na simulação de variáveis aleatórias. A simulação de 
variáveis aleatórias deu origem aos chamados Métodos Monte Carlo (MMC), que, por sua vez, 
supõem que o pesquisador disponha de um gerador de números aleatórios equiprováveis. Um 
Número Aleatório (NA) representa o valor de uma variável aleatória uniformemente distribuída 
no intervalo (0,1). Originalmente, esses números aleatórios eram gerados manualmente ou 
mecanicamente, usando dados, roletas etc. Modernamente, usamos computadores para gerar 
números que na realidade são pseudo-aleatórios. 

Para nossos propósitos, uma simulação pode ser entendida como uma particular realização do 
modelo (binomial, normal etc). Nesse sentido, os valores simulados podem ser considerados 
como uma amostra, como veremos nos capítulos seguintes. Esse entendimento será útil para 
estudar as distribuições de estimadores e suas propriedades. 

O nome Monte Carlo está relacionado com a cidade de mesmo nome, no Principado de 
Mônaco, principalmente devido à roleta, que é um mecanismo simples para gerar números 
aleatórios. Os MMC apareceram durante a Segunda Guerra Mundial, em pesquisas relacionadas 
à difusão aleatória de neutrons num material radioativo. Os trabalhos pioneiros devem-se a 
Ulam, Metropolis, Fermi e von Neumann, por volta de 1948-1949. Alguns trabalhos que podem 
ser consultados são os artigos de Metropolis e Ulam (1949) e von Neumann (1951) e os livros de 
Sóbol (1976), Hammersley e Handscomb (1964) e Ross (1997). 

Para ilustrar, suponha que se queira calcular a área da figura F contida no quadrado Q de lado 
unitário (Figura 9.1). Suponha que sejamos capazes de gerar pontos aleatórios em Q, de modo 
homogêneo, isto é, de modo a cobrir toda a área do quadrado, ou, ainda, que esses pontos sejam 
uniformemente distribuídos sobre Q. Se gerarmos N pontos, suponha que Nº desses caiam em F. 
Então, poderemos aproximar a área de F por N”/N. No caso da figura, uma estimativa da área é 


24/200, pois geramos 200 pontos em Q e 24 estão dentro de F. Quanto mais pontos gerarmos, 
melhor será a aproximação. 

Note que o problema em si não tem nenhuma componente aleatória: queremos calcular a área 
de uma figura plana. Mas, para resolver o problema, uma possível maneira foi considerar um 
mecanismo aleatório. Esse procedimento pode ser utilizado em muitas situações. 

Vejamos algumas maneiras de obter um número aleatório. 


Figura 9.1 Área de uma figura por simulação. 


Exemplo 9.1 Lance uma moeda três vezes e atribua o valor 1 se ocorrer cara e o valor O se ocorrer 
coroa. Os resultados possíveis são as sequências ou números binários abaixo: 
000, 001, 010, 011, 100, 101, 110, 111. 

Cada um desses números binários corresponde a um número decimal. Por exemplo, (111), = 
(7), pois (111), =1x22+1x2!+1 x 2º (o índice indica a base em que o número está sendo 
expresso). Veja Morettin et al. (2005). Considere a representação decimal de cada sequência 
acima e divida o resultado por 2º - 1 = 7. Obteremos os números aleatórios 0, 1/7, 2/7, ..., 1. 
Observe que você poderá, eventualmente, considerar a sequência 111 “menos aleatória” do que 
010, digamos. Mas qualquer uma das oito sequências anteriores tem a mesma probabilidade, a 
saber, 1/22 = 1/8. 

Suponha, agora, que você lance a moeda dez vezes. Teremos números binários com dez 
dígitos, e cada um terá probabilidade 1/2!º = 1/1024. Assim, a sequência 

1111111111, 
formada por “dez uns”, parece “menos aleatória” do que a sequência 
1010101010, 
formada por “cinco pares de dez”, que por sua vez parece “menos aleatória” do que a sequência 
0110111001, 
que requer uma descrição mais elaborada. No entanto, todas elas têm a mesma probabilidade de 
ocorrer no experimento acima. Intuitivamente, a aleatoriedade de uma sequência está ligada à 
dificuldade de descrevê-la em palavras, como fizemos acima. 

Para esse caso de dez lançamentos, procederíamos como no caso de três lançamentos, 
dividindo os 1.024 números decimais obtidos por 2!º - 1 = 1.023, para obter 1.024 NA entre O e 
1. De modo geral, lançando-se a moeda n vezes, teremos 2” possibilidades e os NA finais são 
obtidos por meio de divisão por 2" - 1. 


Exemplo 9.2 Números aleatórios também podem ser gerados usando-se uma roleta como a da 
Figura 9.2, com dez setores numerados 0, 1, 2, ..., 9. 


Gire a roleta dez vezes e anote os números obtidos numa coluna. Faça a mesma coisa mais 
duas vezes, de modo a obter algo como: 


Figura 9.2 Roleta com dez setores. 


ONOa4DNANDO 
OVOVORrRORRBO 


JNOoOoNoqnasa oO Ba 


Agora, divida cada número em cada linha por 1.000, para obter os NA 
0,610; 0,944; 0,504; 0,510; 0,254; 0,639; 0,129; 0,380; 0,226; 0,079. 

Para obter NA com quatro casas decimais, basta girar a roleta quatro vezes. Na realidade, os 
números acima foram obtidos de uma tabela de números aleatórios, como aquela da Tabela VII. 
No exemplo, iniciamos no canto superior esquerdo e tomamos as três primeiras colunas com dez 
dígitos cada. Tabelas de números aleatórios são construídas por meio de mecanismos como o que 
descrevemos. O problema que enfrentamos muitas vezes é o de gerar uma quantidade muito 
grande de números aleatórios, da ordem de 1.000 ou 10.000. O procedimento de simulação 
manual, usando uma tabela de números aleatórios, pode se tornar muito trabalhoso ou mesmo 
impraticável. 

A solução alternativa é substituir a simulação manual por simulação por meio de 
computadores, utilizando números pseudo-aleatórios, em vez de números aleatórios. 

Os números pseudo-aleatórios (NPA) são obtidos por meio de técnicas que usam relações 
matemáticas recursivas determinísticas. Logo, um NPA gerado numa iteração dependerá do 
número gerado na iteração anterior e, portanto, não será realmente aleatório, originando o nome 
pseudo-aleatório. 

Há vários métodos para gerar NPA. Um dos primeiros, formulado pelo matemático John von 
Neumann, é chamado o método de quadrados centrais (veja o Problema 18). Um método 
bastante utilizado em pacotes computacionais é o método congruencial, discutido nos Problemas 
le2. 

Os diversos pacotes aplicativos, estatísticos ou não, utilizam métodos como o congruencial 
para implementar sub-rotinas de geração de NPA. Como exemplos de pacotes, citamos o NAG 


(Numerical Algorithm Group), atualmente incorporado ao pacote MATLASB, e o IMSL. 
O pacote estatístico Minitab usa os comandos Random e Uniform para gerar NPA. 


Exemplo 9.3 Temos no Quadro 9.1 um exemplo de geração de dez NA. O comando “Random 10 
C1” seguido de “Uniform 0,1” pede para gerar dez NA e guardá-los na coluna C1. 


Quadro 9.1 Geração de números aleatórios. Minitab. 


MTB > RANDOM 10 CI; 
SUBC > UNIFORM (0, 1). 
ct 

1 0.590042 

2 0.859332 

3 0.021023 

4 0.340748 

5 0.673675 

6 0.558276 

7 0.911412 

8 0.775391 

9 0.867138 

10 0.865328 


O pacote SPlus usa o comando runif(n, min, max), em que n é o número de valores a gerar e 
(min, max) é o intervalo no qual se quer gerar os NPA. No nosso caso, min = 0 e max = 1. 


Exemplo 9.4 O comando “u < - runif(10,0,1)” pede para gerar dez NA e guardá-los no vetor u. O 
comando “u” imprime os dez valores. Veja o Quadro 9.2. 


Quadro 9.2 Geração de números aleatórios. SPlus. 


>u <- runif (10,0, 1) 
>u 
[1] 0.6931500 0.8586156 0.1494293 0.2947197 


0.3474523 0.7571899 0.3016043 0.3051952 
[9] 0.9135144 0.7996542 


A planilha Excel usa a função ALEATÓRIO( para gerar NA, ou então “Geração de números 
aleatórios”, escolhendo a opção “Análise de Dados” do menu “Ferramentas”. 


Exemplo 9.5 O Quadro 9.3 mostra, na coluna A, o resultado de gerar 20 NA usando o Excel. Foi 
utilizada a opção Uniforme (0,1). 


Quadro 9.3 Geração de números aleatórios. Excel. 


A BCD E F G 
1 0.382 051 0.77423 1 2 
2 0100681 141 0.91015 2 9 
3 0.596484 13 0 -0.12675 3 10 
4 0.899106 1 4 4 143993 4 6 
5 0.88461 1 6 O 1.192723 5 
6 0.958464 1 5 1 -0.89864 6 
7 0014496 0 6 1 -0.64207 7 
8 0.407422 1 6 0 -1.16122 8 
9 0.863247 03 0 0.47886 9 
10 0.1385855 1 5 3 0.832001 10 
11 0.245033 1 1 1.001472 
12 0.045473 0 0 0.61513 
13 0.03238 O 2 1.896733 
14 0.164129 1 3 —1.25248 
15 0.219611 O 1 1.308572 
16 0.01709 2 -1,28498 
17  0.285043 1 0.357816 
18  0.343089 0 -0.1679 
19  0.553636 2 1.580393 
20 0.357372 1 0.994548 


1. Vejamos o significado da expressão x mod m, na qual x e m são inteiros não negativos. O resultado de tal operação é o resto 
da divisão de x por m. Ou seja, se x = mq + r, então x mod m = r. Por exemplo, 13 mod 4 = 1. 
Encontre 18 mod 5 e 360 mod 100. 

2. O método congruencial. No chamado método congruencial multiplicativo de gerar NPA, começamos com um valor inicial no, 


chamado semente, e geramos sucessivos valores n4, n5, ... por meio da relação 


n = qn, mod mM, 


a IN 
sendo no, a, m inteiros não negativos ei = 0, 1,2,...,m- 1. A constante a é o multiplicador e m é o módulo. Por meio da fórmula 
acima no máximo m números diferentes são gerados, a saber, 0, 1,..., m- 1. Seh<m for o valor de i correspondente ao número 
máximo de pontos gerados, a partir do qual os valores se repetem, então h é chamado o ciclo ou o período do gerador. Os NPA 
são obtidos por meio de 
u,=n/m,1=0,1,..,mMm-1. 


Tomemos, por exemplo, a semente ny = 17,a = 7 em = 100. É fácil ver que obtemos o seguinte: 


Pop oa A a 
n;|17|19)33:/]31/17].. 


Temos, então, que o ciclo é h = 4, e os valores n; vão se repetir a partir daí. Os correspondentes NPA gerados serão 

0,17; 0,19; 0,33; 0,31; 0,17; ... 
Devemos escolher a e m de modo a obter ciclos grandes, ou seja, geramos muitos NPA antes que eles comecem a se repetir. A 
seleção de m é normalmente determinada pelo número de “bits” das palavras do computador usado. Atualmente, tomamos por 
exemplo m = 284. Para o valor a a sugestão é tomar uma potência grande de um número primo, por exemplo, a = EA 
O método congruencial misto usa a fórmula 


n;,,=an,+ b mod m. 
3. Considere a semente ny = 13, o multiplicador a = 5 e o módulo m = 100, para gerar dez números pseudo-aleatórios. Qual o 
período h nesse caso? 


4. Idem, para no = 19,a = 13 em = 100. 


5. Use algum programa ou planilha computacional para gerar 10.000 números pseudo-aleatórios. Faça um histograma e um box 
plot desses valores. Esses gráficos corroboram o fato de que esses números obtidos são observações de uma v.a. com 


distribuição uniforme no intervalo (o, 1? Explique. 


9.2 Simulação de Variáveis Aleatórias 


De posse de um bom gerador de NA podemos, em princípio, gerar NA de qualquer outra v.a., 
usando a correspondente função de distribuição acumulada (f.d.a.). Como ilustração, vamos 
supor uma v.a. contínua X, com f.d.a. F(x) mostrada na Figura 9.3. 


Figura 9.3 f.d.a. de uma v.a. contínua X. 


Usando-se um gerador de NA, produz-se um NA u; marca-se esse valor no eixo das ordenadas 
de F(x); por meio da função inversa de F(x) obtém-se o valor x da v.a. X no eixo das abcissas. 
Isto é, resolve-se a seguinte equação 


FO) =u, (9.1) 


ou seja, x= F(u). Observe a figura para melhor entendimento. 
Na realidade, o procedimento ilustrado acima pode ser formalizado no seguinte resultado, 
chamado de método da transformação integral. Suponha F estritamente crescente. 


Teorema 9.1 Se X for uma v.a. com f.d.a. F, então a v.a. U = F(X) tem distribuição uniforme no 
intervalo [0, 1]. 
Prova. Como F é estritamente crescente e u = F(x), então x = F(u), pois existe a inversa de X. 
Se G(u) é a f.d.a. de U, temos 

G(u)= P(U<u)= P(F(X) <u) = P(X< F-1(u)) = F(F-1(u)) = u, 
o que demonstra o teorema. 
Exemplo 9.6 Considere a v.a. com densidade f(x) = 2x, O< x < 1. Temos, 

O, sex<0 


F(x)=|x2, se0sx<l 


| Sexal, 


Na Figura 9.4 temos os gráficos de f(x) e F(x). 


Figura 9.4 F.d.p. e f.d.a. da v.a. X do Exemplo 9.6. 


Então, a equação (9.1) fica u = x2. Para obter um valor de X basta gerar um NA u e depois 
gerar x=u. Como O <x< 1, deve-se tomar a raiz quadrada positiva de u. Por exemplo, se u = 
0,5, então F(x) = 0,5 e portanto x=/0,5 =0,71, que é um valor (número aleatório) gerado da v.a. X. 

Para simular dados de uma v.a. discreta, o segredo está em fazer uma pequena modificação no 
gráfico da f.d.a. Considere uma v.a. com a seguinte distribuição de probabilidades: 


A f.d.a dessa v.a. é dada por 
0, Sex <x 
Py sex Sx<x, 
F(x)=n+D, sex <Sx<x 


I, Sex2x,. 


Os gráficos correspondentes estão na Figura 9.5. 


Figura 9.5 F.p. e f.d.a. de uma v.a. discreta. 
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Para usar o procedimento anterior basta alterar o gráfico de F(x) acima, do modo apresentado 
na Figura 9.6. 


Figura 9.6 F.d.a. “modificada” para a v.a. discreta X. 
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Como antes, geramos um NA u entre O e 1 e o marcamos no eixo das ordenadas; procura-se o 
inverso de u no eixo das abcissas. Suponha que u esteja entre p,+p,+... +P,,ep; tp +... +p; 
4 + Pp; Segundo a Figura 9.6, vemos que então obteremos o valor x, da v.a. X. 

A descrição acima pode ser resumida no seguinte procedimento: gera-se um NA u, ou seja, um 
valor de uma v.a. U uniforme no intervalo [0, 1]. Coloque: 


X, Seu<p, 


X, SepSu<p+p, 


X=:. (9.2) 


Xp SCp+.tP,SU<p+.+p,. 


Exemplo 9.7 Consideremos a v.a. X com distribuição 


HERE 
p; 1/2 | 1/4 


Suponha que ao gerar um NA obtemos u = 0,3. Então, como p, <u<p,+ p, ou seja, 0,25 <u 
< 0,75, tomamos o valor gerado de X como x = 1. Para obter uma amostra de n valores de X basta 
gerar n números aleatórios e proceder para cada um deles como acima. Note que poderemos 
obter valores repetidos de X. 

Na Seção 9.3, mostraremos como gerar valores de algumas distribuições conhecidas. Nem 
sempre o método apresentado é utilizado, pois há dificuldade em resolver a equação (9.1). Os 
pacotes estatísticos (como o Minitab e SPlus) e as planilhas eletrônicas (como a do Excel) 
possuem sub-rotinas próprias para simular valores para vários modelos de v.a.”s, tanto discretas 
como contínuas. Na Seção 9.4, apresentaremos exemplos de uso de tais programas. 


Problemas 


6. Gere cinco valores da v.a. X, cuja distribuição é dada por: 


X| 0 ih 2 3 4 
p;/0,1/0,2/04/0,2/0,1 


Use a Tabela VII para gerar os NA. 
7. Gere dez valores da v.a T do Problema 17 do Capítulo 6. 
8. Considere a v.a. X contínua com f.d.p. 


Flx)= 


Como você procederia para obter um valor simulado de X? Se u = 0,5, qual será o valor correspondente gerado de X? 


3x? se-l<x<0 
O, caso contrírio. 


9.3 Simulação de Alguns Modelos 


Utilizando o que foi estudado nas seções anteriores, vejamos como podemos simular valores 
de alguns modelos que já consideramos anteriormente. 
Exemplo 9.8 Simulação de uma distribuição de Bernoulli. 

Suponha que X tenha uma distribuição de Bernoulli, com P(X=0)=1-p=0,48e P(X = 1)= 
p = 0,52. Para gerar valores de tal distribuição basta gerar NA u e concluir: 

Se u < 0,48, coloque X = 0; 
Se u > 0,48, coloque X = 1. 

Por exemplo, suponha que geramos dez NA: 0,11; 0,82; 0,00; 0,43; 0,56; 0,60; 0,72; 0,42; 
0,08; 0,53. Então, os dez valores gerados da distribuição em questão são 0, 1, 0,0, 1,1,1,0,0,1, 
respectivamente. 

Exemplo 9.9 Simulação de uma distribuição binomial. 

Sabemos que se Y - b(n, p), então Y é o número de sucessos num experimento de Bernoulli, 
com n repetições e probabilidades de sucesso p. Mas P(sucesso) = P(Y = 1) = p. No Exemplo 
9.8, obtivemos cinco sucessos, logo Y = 5. Portanto, se Y - b(10; 0,52), e queremos, digamos, 
gerar 20 valores dessa distribuição, basta considerar 20 experimentos de Bernoulli, sendo que em 
cada um deles repetimos o experimento n = 10 vezes, com probabilidade de sucesso p = 0,52. 
Para cada experimento j consideramos o número de sucessos (número de 1), y, j = 1, 2, ..., 20. 
Obteremos, então, os 20 valores simulados y,, ..., Y»o da V.a. Y. Observe que esses valores serão 
inteiros entre O e 20, inclusive esses dois últimos. 


Exemplo 9.10 Simulação de uma distribuição exponencial. 

Se a v.a. T'tiver densidade dada por 

f(t) = 1/B e-t/B, t> 0, (9.3) 
a sua f.d.a. é dada por 
F(t) = 1 - e-t/B, (9.4) 

logo, temos de resolver a equação (9.1) para gerar t. 

Tomando logaritmo na base e, temos 

1I-u=etBSlog(1-u)=-BSt=-Blog (1 -u). 

Logo, gerado um NA, um valor da distribuição Exp(PB) é dado por -f log (1 - u). 

Por exemplo, suponha 8 = 2 e queremos gerar cinco valores de T - Exp(2). Gerados os valores 
u, = 0,57, u, = 0,19, u, = 0,38, u, = 0,33, us = 0,31 de uma distribuição uniforme em [0, 1] (os 
números aleatórios), obteremos t, = (-2)(log(0,43)) = 1,68, t, = (-2)log(81)) = 0,42, t, = (-2) 
(log(0,62)) = 0,96, t, = (-2)(log(0,67)) = 0,80, t, = (-2)(log(0,69)) = 0,74. 


Podemos reduzir um pouco os cálculos se usarmos o seguinte fato: se U - U[0, 1], então 1-U 
- ULO, 1]. Resulta que poderemos gerar os valores de uma exponencial por meio de 
t=-Blog (u). 


Usando essa fórmula para os valores de U acima, obteremos os seguintes valores de T: 1,12; 
3,32; 1,93; 0,96; 2,34. 


Exemplo 9.11 Simulação de uma distribuição normal. 

Há vários métodos para gerar v.a. normais, mas uma observação importante é que basta gerar 
uma v.a. normal padrão, pois qualquer outra pode ser obtida desta. De fato, gerado um valor z, da 
v.a. Z - N(0, 1), para gerar um valor de uma v.a. X - N(u, 0?) basta usar a transformação z = (x - 
H)/ para obter 


x=u+toz,. (9.5) 


Vamos dar um exemplo usando a transformação integral e uma tabela de probabilidades para a 
normal padrão. Suponha que X - N(10; 0,16), ou seja, q = 10 e o = 0,4. Temos de resolver a 
Fórmula (9.1), ou seja, 

D(z) =u, 
em que estamos usando a notação D(z) para a f.d.a. da N(0, 1). Vamos gerar, em primeiro lugar, 
um NA u, usando a Tabela VII. Tomando as três primeiras colunas e o canto inferior esquerdo, 
obtemos u = 0,230. Então temos de resolver 
d(z) = 0,230, 
ou seja, temos de encontrar o valor z tal que a área à sua esquerda, sob a curva normal padrão, 
seja 0,230. Veja a Figura 9.7. 


Figura 9.7 Geração de um valor z - N(0, 1). 


40,74 0 z 


Consultando uma tabela para a normal, encontramos que z = -0,74. Logo, o valor gerado da 
normal em questão satisfaz 
x-10 
0,4 


= 0,74, 


ou seja, x = 10 + (0,4)(-0,74) = 9,704. Qualquer outro valor pode ser gerado da mesma forma. 

Esse método, embora simples, não é prático, sob o ponto de vista computacional. Há outros 
métodos mais eficientes. Alguns são variantes do método de Box-Miiller (1958). Nesse método 
são geradas duas v.a. Z, e Z,, independentes, e N(0, 1), por meio das transformações 


Z, = J-2logU, cos(2nU,), (9.6) 
Z, = J-2logU sen(2nU,), 


em que U, e U, são v.a. com distribuição uniforme em [0, 1]. Portanto, basta gerar dois NA u, e 
u, e depois gerar z, e z, usando (9.6). Veja também o Problema 22. 


Problemas 


9. Gere dez valores de uma distribuição de Bernoulli, com p = 0,35. 
10. Obtenha dez valores de uma v.a. Y - b(10; 0,2). 
11. Usando o procedimento do Exemplo 9.10, gere dez valores de uma distribuição exponencial com parâmetro 8 = 1/2. 
12. Usando o Teorema 9.1, gere: 
(a) cinco valores da v.a. do Exemplo 9.6; 
(b) dez valores de uma distribuição N(10; 4); 


(c) dez valores de uma distribuição t de Student com 24 graus de liberdade. 
13. Simulação de uma distribuição qui-quadrado. Como sabemos, se Z - N(0, 1) e Y= Z?, então Y - x). Por outro lado, uma 
v.a. W com distribuição x(n) pode ser escrita como 
W=2Z+2Z2)+..+22, 
em que as v.a. Zy, ..., Z, são normais padrões, independentes. 
Portanto, para simular um valor de uma v.a. com distribuição qui-quadrado, com n graus de liberdade, basta gerar n valores de 


uma v.a. N(0, 1) e considerar a soma de seus quadrados. 
14. Gere dez valores de uma distribuição qui-quadrado com três graus de liberdade. 


9.4 Exemplos Computacionais 


Nesta seção, vamos apresentar alguns exemplos de simulação de v.a.”s usando os pacotes R, 
Minitab, SPlus e Excel. As Tabelas 9.1 e 9.2 trazem as distribuições discretas e contínuas, 
respectivamente, contempladas por cada um e os comandos apropriados, quando pertinentes. 


Tabela 9.1 Opções de Distribuições Discretas. 


Distribuição Excel (Par.) Minitab (Par.) | Re SPlus (Par.) 
Bernoulli Bernoulli (p) Bernoulli (p) — 
Binomial Binomial (n, p) | Binomial (n, p) | binom (n, p) 

Geométrica — -— geom (p) 

Hipergeométrica — -— hyper (N, r, k) 
Poisson Poisson (À) Poisson (À) pois (À) 
Discreta Discreta — — 


Comecemos com v.a.”s discretas. Para gerar uma distribuição de Bernoulliu no R ou SPlus, 
basta colocar n = 1 no caso binomial. O pacote Minitab usa o comando Random seguido de um 
dos comandos da tabela. Os pacotes R e SPlus colocam a letra r (de “random”) antes do 
comando apropriado. A planilha Excel pode tanto usar a função ALEATÓRIO() como a opção 
Geração de número aleatório, dentro de Análise de Dados do menu Ferramentas. Existe uma 
opção Discreta para gerar uma distribuição discreta especificada (x, pj), i = 1, ..., k. Vejamos 


alguns exemplos. 


Exemplo 9.12 Suponha que queiramos simular 20 valores de uma distribuição binomial, com n = 10 
e p= 0,6, e 15 valores de uma distribuição de Poisson, com parâmetro À = 2,4, usando o R. 
Obtemos o Quadro 9.4. Os valores simulados são arquivados nas colunas C1 e C2. 


Quadro 9.4 Simulação da binomial e Poisson. R. 


C1<-rbinom(20,10,0.6) 
C2<-rpois(15,2.4) 
C2<-append(C2,values = rep(NA,5)) 
quadro9.4<-data.frame(C1,C2) 
quadro9.4. 

C1C2C1C2 
1311132 
2711272 
3311371 
4741472 
5731543 
641168NA 
783179NA 
874184NA 
943197NA 
1072204NA 


Exemplo 9.13 Usando o SPlus, mostramos no Quadro 9.5 as saídas correspondentes a simular 20 
valores de uma v.a. X - b(10; 0,5) e 20 valores de uma v.a. Y - Poisson (1,7). 


Quadro 9.5 Simulação da binomial e Poisson. SPlus. 
>x <-rbinom(20, 10, 0.5) 


>X 
[1]64755557618466765567 


>y <-rpois (20, 1.7) 
2y 
[1]12551321223132114230 


Exemplo 9.14 Suponha que queiramos gerar as seguintes distribuições, usando o R: 
(a) X- b(10; 0,5); (c) Z - U[0,1]; 
(b) Y - Poisson(1,7); (d) B - Bern(0,7). 
Os comandos respectivos estão dados no Quadro 9.6. 


Quadro 9.6 Simulação de variáveis. R. 


x<-rbinom(20,10,0.5) 
y<-rpois(20,1.7) 
z<-runif(100,0,1) 
b<-rbinom(15,1,0.7) 


Os histogramas respectivos estão na Figura 9.8. 


Figura 9.8 Histogramas de distribuições simuladas no Exemplo 9.14. SPlus. 
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Tabela 9.2 Opções de Distribuições Contínuas. 


Distribuição Excel (Par.) | Minitab (Par.) | Re SPlus (Par.) 
Normal Normal (0, 1) | Normal (p, 0) norm (|, 6) 
Exponencial — Exponential (B) exp (B) 
t (Student) — T(v) t(v) 
F (Snedecor) — F(vy vo) FO va) 
Gama — Gamma (o, B) gamma (a, B) 
Qui-Quadrado — Chisquare (v) chisq (v) 
beta — Beta(a, B) beta (o, B) 


Vejamos, agora, alguns exemplos para v.a.”s contínuas. 


Exemplo 9.15 Usando o pacote Minitab, geramos: 
(a) 10 valores de uma N(0, 1); 
(b) 20 valores de uma Exp(2); 
(c) 15 valores de uma x*(5). 
Os comandos e respectivos valores simulados estão mostrados no Quadro 9.7. 


Quadro 9.7 Simulação de variáveis. Minitab. 


MTB > Random 10 C1; MTB > 

SUBC > Normal 0 1. MTB > Random 15 C3; 
MTB > SUBC > Chisquare 5. 

MTB > Random 20 C2; MTB > 

SUBC > Exponential 2. 

C1C2 C3C1C2C3 

1 -0.06636 2.50204 4.44339 11 0.60892 0.71995 
2 0.14940 1.11469 2.60994 12 0.11405 6.58849 
3-0.08339 1.83977 9.25374 13 4.10192 5.52644 
4 0.09516 0.47726 1.10399 14 3.87223 2.86108 
5 —1.08060 0.60830 2.31042 15 2.59596 2.87105 
6 -0.63088 1.83693 6.62708 16 0.50944 

7 0.17171 2.35880 9.20627 17 1.05514 
8-1.78075 1.31646 1.52421 18 3.91126 

9 1.89407 4.19729 4.88943 19 1.98810 

10 0.21054 1.81575 3.90302 20 3.82243 


Exemplo 9.16 Usando o pacote R, simulamos: 
(a) 500 valores de uma v.a. Z - N(0,1); 
(b) 200 valores de uma v.a. Y - N(10; 0,37); 


(c) 500 valores de uma v.a. (35); 

(d) 500 valores de uma v.a. T - Exp(2); 

(e) 300 valores de uma v.a. W - x(5); 

(f) 500 valores de uma v.a. F(10, 12). 

Os comandos necessários são mostrados no Quadro 9.8 e os respectivos histogramas estão na 
Figura 9.9. 


Quadro 9.8 Simulação de variáveis. R. 


z<-mmorm(500,0,1) Exp<-rexp(500,2) 
hist(z) hist(Exp) 

y<-rnorm(200,10,0.3) w<-rchisa(300,5) 
hist(y) hist(w) 

t<-rt(500,35) f<-rf(500,10,12) 

hist(t) hist(f) 


Figura 9.9 Histogramas de algumas distribuições geradas no Exemplo 9.16. 


Na planilha Excel a normal pode ser gerada por meio da “opção normal? no menu 
“Ferramentas (Análise de Dados (Geração de números aleatórios)” ou pela função 
ALEATÓRIO) e a fórmula = INV.NORM (ALEATÓRIO(, |, 0). 


Exemplo 9.17 A coluna E do Quadro 9.3 traz 20 valores gerados de uma N(0, 1) usando a 
ferramenta GNA. 
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15. Usando um pacote de sua preferência, gere: 
(a) 100 valores de uma distribuição binomial, com parâmetros n = 15, p = 0,7. 
(b) 500 valores de uma distribuição de Poisson com parâmetro À = 1,3. 
Em cada caso, faça um histograma e veja se este corresponde à distribuição em questão. 
16. Usando um pacote computacional de sua preferência, gere: 
(a) 500 valores de uma normal padrão; 
(b) 1.000 valores de uma distribuição qui-quadrado com cinco graus de liberdade; 
(c) 800 valores de uma distribuição exponencial com parâmetro 3. 
Em cada caso, faça um histograma, um ramo-e-folhas e um box plot. Comente. 
17. Usando o método de Box-Miiller, gere cinco valores de uma distribuição normal padrão. 


9.5 Problemas Suplementares 


18. O método dos quadrados centrais de von Neumann opera do modo descrito a seguir. Considere um inteiro ny com m dígitos e 
seu quadrado A que terá 2m dígitos (eventualmente acrescentando zeros à esquerda). Tome os dígitos centrais de no e divida o 
número obtido por 10” para se obter um NA, uo, entre O e 1. Continue, tomando n, como o número inteiro central desse passo. 
Esse método pode não funcionar bem, como o exemplo abaixo de Kleijnen e van Groenendaal (1994) mostra. 
Suponha m = 2 e considere ny = 23. Então, np = 0529, e o primeiro NA é ug = 0,52. 
Agora, n = 52, 4 = 2704 e u; = 0,70. Sucessivamente, obtemos u> = 0,90, us = 0,10, uy = 0,10 etc. Ou seja, a partir de us, os 
NA se repetem. 
Obtenha números aleatórios, com m = 3, usando esse método. 
19. Uma distribuição binomial de parâmetros n e p pode ser simulada também do seguinte modo. Considere a recursão 

es? 


Pp J+1 I=p?" 


comp;=P(X=j),j=0,1,...,n. 


Chame j o valor atual, pr = P(X =), F = F(j) = P(X <j) e o algoritmo: 
Passo 1. Gere o NA u; 
Passo 2. r = pi(1 -p),j =0,pr= (1 “pj, F=pr; 
Passo 3. Seu < F, coloque X = j; 
Passo 4. pro CD rp F+prj=j+1. 
Passo 5. Volte ao passo 3. 
Usando esse algoritmo, gere cinco valores da v.a. X - b(5; 0,3). 
20. Usando o procedimento recursivo 9.8, gere cinco valores de uma v.a. com distribuição de Poisson de parâmetro À = 2. 
21. Usando um aplicativo estatístico, gere: 
(a) 100 valores de uma N(5; 0,9) e faça o histograma dos valores gerados. 
(b) 200 valores de uma Exp(1/2) e faça o histograma dos valores gerados. 


(c) 500 valores de uma Gama(o, p), com a = 8 = 2, e faça o histograma. 


(d) 300 valores de uma x(32) e faça o histograma. 
Os histogramas que você obteve estão de acordo com as definições dadas dessas distribuições? Comente. 
22. Usando um pacote, gere: 
(a) 300 valores de uma distribuição t(120). 
(b) 500 valores de uma distribuição F(56, 38). 
(c) 300 valores de uma distribuição B(20, 30). 
Faça um histograma dos valores simulados em cada caso e responda a mesma pergunta do problema anterior. 
23. Simule cinco valores de uma distribuição Gama(3, 1/2), usando o procedimento descrito no CM-3. 
24. Usando um pacote computacional, gere: 
(a) 1.000 valores de uma distribuição uniforme bidimensional no quadrado de lado unitário, supondo os componentes 
independentes; 
(b) 1.000 valores de uma normal bidimensional (X, Y), com X e Y independentes, X - N(10, 4)e Y - N(15, 9). 
25. Um time de futebol irá disputar 10 partidas num torneio de classificação. 
(a) Supondo que sua chance de vitória em cada jogo é de 60%, simule sua possível campanha. 


(b) Simule agora se é esperado o seguinte desempenho em cada jogo: 50% de vitória, 30% de empate e 20% de derrota. 

(c) Para a situação descrita em (b), simule 12 possíveis campanhas para o time, e estude a variável X = número de pontos 

obtidos (vitória = 3, empate = 1 e derrota = 0). 

(d) Proponha outros parâmetros para o time e repita a questão (c). 
26. Suponha que uma moeda é viciada, de tal sorte que favoreça mais cara do que coroa. Para estimar a probabilidade de cara, 
você a pode lançar, digamos, 50 vezes. 

(a) Para simular um possível resultado do seu experimento, o que é que seria necessário? 

(b) Supondo que a probabilidade de ocorrer cara é p = 0,6, qual seria a sua simulação e sua estimativa de p? 

(c) Faça a simulação para 4 outras pessoas e dê suas respectivas estimativas. Alguém acertou o verdadeiro parâmetro? 
27. Em uma população 20% das pessoas compram o produto C. Seleciona-se, com reposição, indivíduos dessa população até 
encontrar um comprador de C. A variável X indica o número de indivíduos entrevistados. Qual é a distribuição simulada de X? 
28. Uma pesquisa domiciliar irá entrevistar todos os moradores do domicílio e a distribuição do número de moradores por 
domicílio encontra-se abaixo. Será usada uma amostra de 5 domicílios: 


Nº de moradores | Porcentagem 


1 5 
12 
20 
23 


o Io UswnN 
- 
[00] 


(a) Simule 100 amostras de tamanho 5. 
(b) Considere X = n. médio de pessoas por amostra. Qual a distribuição de frequência empírica de X? 


(c) Construa a distribuição de X = nº médio de pessoas por amostra. 


(d) Encontre para a população o valor | = nº médio de pessoas, e construa a distribuição empírica de X - p. Como pode ser 
interpretada essa distribuição? 
(e) Se o entrevistador recebe 2 u.m. por pessoa entrevistada, usando o resultado (b), qual a probabilidade de uma amostra 


custar mais de 12 u.m.? 


29. A altura X das pessoas segue aproximadamente uma curva normal com média | e variância a 


(a) Proponha dois valores realísticos para q e 0, e gere 10 alturas de uma população de homens. Calcule a média e o desvio 
padrão desta população. 

(b) Com os mesmos parâmetros gere uma outra amostra de 10 alturas. Olhando e analisando as duas amostras elas parecem vir 
de populações distintas? 

(c) Gere uma amostra de 10 alturas de uma população feminina. Compare com a amostra obtida em (a), e diga se é possível 
afirmar que as duas amostras vêm de populações distintas. 

(d) Como você acha que os parâmetros influenciam para diferenciar bem as amostras? Dê exemplos. 


9.6 Complementos Metodológicos 


1. Simulação de uma distribuição de Poisson. Se N - P(A), então P(N = j) = p; é dada por 


o GM - 
P(N=))=a +) =01,.. (9.7) 
A geração de valores de uma distribuição de Poisson parte da seguinte relação recursiva, que pode ser facilmente verificada: 
À ; 
Pja= JP» jz0. (9.8) 


Seja, também, F(;) = P(N < j) a função de distribuição acumulada (f.d.a.) de N. Considere j o valor atual gerado e queremos 


gerar o valor seguinte. Chamemos simplesmente p = p; e F = F(j). Então o algoritmo para se gerar os sucessivos valores é o 
seguinte: 
Passo 1. Gere o NA u; 


Passo 2. Façaj=0,p=e-heF =p; 


Passo 3. Seu <F, coloque N = j: 

Passo 4. Faça p= Ep: F=F+pej=j+l; 

Passo 5. Volte ao Passo 3. 

Note que, no Passo 2, se j = 0, P(N 0) Ppo=e-Ae F(0) = P(N < 0) = Po: 


2. Transformação de Box-Miiller. Considere as v.a. X e Y, independentes e ambas N(o, No. Observando a Figura 9.10, vemos que 
psy tg9 = Y/X. A densidade conjunta de X e Y é 


f(x,y) es eteih, 


Figura 9.10 Transformação de variáveis (x, y) > (R, q). 


va 


(1,3) 


Considere a transformação de variáveis 
r=x+y? 
0 = arctg (ya). 
A densidade conjunta de r e 6 é obtida usando o resultado (8.28). Temos que x = «Jr cosg,y=«/r seng € O Jacobiano da 
transformação é |J| = 1/2. Segue-se que a densidade de r e O é 
flr,0)=1/2n - e-r2 -1/2,0<r<0,0<8<2m. 
Dessa relação podemos concluir que r = Rº e 6 são independentes, com 
Rº - Exp(2), 6 - U(0, 210. 

Portanto, podemos escrever que 

X = Rcos6=,/-2logU, cos(2nU,) 

Y =Rsen6=,/-2logU sen (2nU, ) 
Aqui, usamos o fato de que, se Rº- Exp(2), gerado um NA U,, vem que -2log U, - Exp(2) e se 8 - u(0, 21), então gerado um 
NA U,, vem que 210, - u(0, 21). 
3. Simulação de uma distribuição gama. Pode-se demonstrar, usando resultados não estudados neste livro, que se a v.a. X - 
Gama(r, B), com r inteiro, então X=Y, + Y, +... + Y,, em que cada Y, - Exp(f) e as v.a. Y; são independentes. Logo, para gerar 


um valor de uma distribuição Gama(r, B), com r > 0, inteiro, basta gerar r valores de uma distribuição exponencial de parâmetro 
B e depois somá-los. 
4. Simulação de várias variáveis. E mais complicado simular distribuições bidimensionais. No caso de X e Y serem 


independentes, então 
fix, y) = fux) O), VX,Y, 


se elas forem contínuas, por exemplo. Logo, para gerar um valor (x, y) da densidade conjunta f(x, y), basta gerar o componente x 
da distribuição marginal de X e a componente y da distribuição marginal de Y, independente. 
No caso de v.a. dependentes, temos que vale a relação: 


fo 3) = [09 fio. 


Logo, por essa relação, primeiramente geramos um valor x da distribuição marginal de X e fixado esse valor, xy, digamos, 
geramos um valor da distribuição condicional de X, dado que X = xp. Isso implica que devemos saber como gerar valores das 


distribuições fy(x) e fd xObo). 
Vamos nos limitar a dar dois exemplos no caso de v.a. independentes. 


Exemplo 9.18 Distribuição uniforme bidimensional. 


Na Seção 9.1, vimos que para calcular a área da figura F contida no quadrado Q de lado 
unitário (Figura 9.1), considerávamos o quociente N'/N. Como geramos, naquele exemplo, os N 
pontos uniformemente distribuídos sobre Q? Pelo que vimos acima, basta gerar valores de v.a. 
U, - Uto,1]e U, - U[O, 1], independentemente. Então, 

P((U,, U,) e F) = área(F). 

Ou seja, a v.a. (U,, U,) é uniformemente distribuída em Q. 

No caso da Figura 9.1, consideramos 200 valores gerados para U, e U,, de modo que a área 
(F) = 24/100. 

Exemplo 9.19 Distribuição normal bidimensional. 

O método de Box-Miiller gera valores de duas normais padrões independentes, Z, e Z,. Logo, 
se quisermos gerar valores da distribuição conjunta de X e Y, independentes e normais, com X - 
N(po S)eY-N(p, 02), basta considerarmos 

AS ro, Z, Fen to,Z 

Na Figura 9.11, temos as curvas de níveis e o gráfico bidimensional obtidos gerando-se 10.000 

valores cada uma de duas normais padrões independentes. 


Figura 9.11 Distribuição normal padrão bidimensional gerada. 
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Capítulo 10 


Introdução à Inferência Estatística 


10.1 Introdução 


Vimos, na Parte I, como resumir descritivamente variáveis associadas a um ou mais conjuntos 
de dados. Na Parte II, construímos modelos teóricos (probabilísticos), identificados por 
parâmetros, capazes de representar adequadamente o comportamento de algumas variáveis. 
Nesta terceira parte, apresentaremos os argumentos estatísticos para fazer afirmações sobre as 
características de uma população, com base em informações dadas por amostras. 

O uso de informações de uma amostra para concluir sobre o todo faz parte da atividade diária 
da maioria das pessoas. Basta observar como uma cozinheira verifica se o prato que está sendo 
preparando tem ou não a quantidade adequada de sal. Ou, ainda, quando um comprador, após 
experimentar um pedaço de laranja numa banca de feira, decide se vai comprar ou não as 
laranjas. Essas são decisões baseadas em procedimentos amostrais. 

Nosso objetivo nos capítulos seguintes é procurar dar a conceituação formal a esses princípios 
intuitivos do dia a dia para que possam ser utilizados cientificamente em situações mais 
complexas. 


10.2 População e Amostra 


Nos capítulos anteriores, tomamos conhecimento de alguns modelos probabilísticos que 
procuram medir a variabilidade de fenômenos casuais de acordo com suas ocorrências: as 
distribuições de probabilidades de variáveis aleatórias (qualitativas ou quantitativas). Na prática, 
frequentemente o pesquisador tem alguma ideia sobre a forma da distribuição, mas não dos 
valores exatos dos parâmetros que a especificam. 

Por exemplo, parece razoável supor que a distribuição das alturas dos brasileiros adultos possa 
ser representada por um modelo normal (embora as alturas não possam assumir valores 
negativos). Mas essa afirmação não é suficiente para determinar qual a distribuição normal 
correspondente; precisaríamos conhecer os parâmetros (média e variância) dessa normal para que 
ela ficasse completamente especificada. O propósito do pesquisador seria, então, descobrir 
(estimar) os parâmetros da distribuição para sua posterior utilização. 

Se pudéssemos medir as alturas de todos os brasileiros adultos, teríamos meios de obter sua 
distribuição exata e, daí, produzir os correspondentes parâmetros. Mas, nessa situação, não 
teríamos necessidade de usar a inferência estatística! 

Raramente se consegue obter a distribuição exata de alguma variável, ou porque isso é muito 
dispendioso, ou muito demorado ou, às vezes, porque consiste num processo destrutivo. Por 
exemplo, se estivéssemos observando a durabilidade de lâmpadas e testássemos todas até 


queimarem, não restaria nenhuma para ser vendida. Assim, a solução é selecionar parte dos 
elementos (amostra), analisá-la e inferir propriedades para o todo (população). 

Outras vezes, estamos interessados em explorar relações entre variáveis envolvendo 
experimentos mais complexos para a obtenção dos dados. Por exemplo, gostaríamos de obter 
resposta para a seguinte indagação: a altura que um produto é colocado na gôndola de um 
supermercado afeta a sua venda? Observe que para responder a questão precisamos obter dados 
de vendas com o produto oferecido em diferentes alturas, e que essas vendas sejam controladas 
para evitar interferências de outros fatores que não a altura. Nesse caso, não existe claramente 
um conjunto de todos os elementos para os quais pudéssemos encontrar os parâmetros 
populacionais. Recorrer a modelos para descrever o todo (população) facilita a identificação e 
solução do problema. Nesse exemplo, supondo que as vendas V, do produto oferecido na altura h 
(h = 1 representando baixo, h = 2 representando meio e h = 3 representando alto) segue uma 
distribuição próxima a normal, ou seja, V, - N(n, 07), o nosso problema passa a ser o de 
verificar, por meio de dados coletados do experimento (amostra), se existe evidência de 
igualdade das médias |, |, e |. Note que, em nossa formulação do problema, consideremos que 
as três situações de alturas resultam observações com a mesma variância 02. Essa suposição 
poderia ser modificada. 

Soluções de questões como as apresentadas acima são o objeto da inferência estatística. 

Dois conceitos básicos são, portanto, necessários para o desenvolvimento da Inferência 
Estatística: população e amostra. 


Definição. População é o conjunto de todos os elementos ou resultados sob investigação. Amostra 
é qualquer subconjunto da população. 
Vejamos outros exemplos para melhor entender essas definições. 


Exemplo 10.1 Consideremos uma pesquisa para estudar os salários dos 500 funcionários da 
Companhia MB. Seleciona-se uma amostra de 36 indivíduos, e anotam-se os seus salários. A 
variável aleatória a ser observada é “salário”. A população é formada pelos 500 funcionários da 
companhia. A amostra é constituída pelos 36 indivíduos selecionados. Na realidade, estamos 
interessados nos salários, portanto, para sermos mais precisos, devemos considerar como a 
população os 500 salários correspondentes aos 500 funcionários. Consequentemente, a amostra 
será formada pelos 36 salários dos indivíduos selecionados. Podemos estudar a distribuição dos 
salários na amostra, e esperamos que esta reflita a distribuição de todos os salários, desde que a 
amostra tenha sido escolhida com cuidado. 


Exemplo 10.2 Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a 
certo projeto governamental. Uma amostra de 200 pessoas é sorteada, e a opinião de cada uma é 
registrada a favor ou contra o projeto. A população consiste de todos os moradores da cidade, e a 
amostra é formada pelas 200 pessoas selecionadas. Podemos, como foi visto no Capítulo 5, 
definir a variável X, que toma o valor 1, se a resposta de um morador for favorável, e o valor 0, 
se a resposta for contrária ao projeto. Assim, nossa população pode ser reduzida à distribuição de 
X, e a amostra será constituída de uma sequência de 200 zeros e uns. 


Exemplo 10.3 O interesse é investigar a duração de vida de um novo tipo de lâmpada, pois 
acreditamos que ela tenha uma duração maior do que as fabricadas atualmente. Então, 100 
lâmpadas do novo tipo são deixadas acesas até queimarem. A duração em horas de cada lâmpada 


é registrada. Aqui, a variável é a duração em horas de cada lâmpada. A população é formada por 
todas as lâmpadas fabricadas ou que venham a ser fabricadas por essa empresa, com o mesmo 
processo. A amostra é formada pelas 100 lâmpadas selecionadas. Note-se que nesse caso não 
podemos observar a população, ou seja, a distribuição da duração de vida das lâmpadas na 
população, pois isso corresponderia a queimar todas as lâmpadas. Assim, em alguns casos, não 
podemos observar a população toda, pois isso significaria danificar (ou destruir) todos os 


elementos da população. Esse problema geralmente é contornado atribuindo-se um modelo 
teórico para a distribuição da variável populacional. 


Exemplo 10.4 Em alguns casos, fazemos suposições mais precisas sobre a população (ou sobre a 
variável definida para os elementos da população). Digamos que X represente o peso real de 
pacotes de café, enchidos automaticamente por uma máquina. Sabe-se que a distribuição de X 
pode ser representada por uma normal, com parâmetros pn e o? desconhecidos. Sorteamos 100 
pacotes e medimos seus pesos. A população será o conjunto de todos os pacotes enchidos ou que 
virão a ser enchidos pela máquina, e que pode ser suposta como normal. A amostra será formada 
pelas 100 medidas obtidas dos pacotes selecionados, que pode ser pensada como constituída de 
100 observações feitas de uma distribuição normal. Veremos mais adiante como tal amostra pode 
ser obtida. 


Exemplo 10.5 Para investigar a “honestidade” de uma moeda, nós a lançamos 50 vezes e contamos 
o número de caras observadas. A população, como no caso do Exemplo 10.2, pode ser 
considerada como tendo a distribuição da variável X, assumindo o valor 1, com probabilidade p, 
se ocorrer cara, e assumindo o valor 0, com probabilidade 1 - p, se ocorrer coroa. Ou seja, a 
população pode ser considerada como tendo distribuição de Bernoulli com parâmetro p. A 
variável ficará completamente especificada quando conhecermos p. A amostra será uma 
sequência de 50 números zeros ou uns. 


Exemplo 10.6 Há razões para supor que o tempo Y de reação a certo estímulo visual dependa da 
idade do indivíduo (esse exemplo será usado nos Capítulos 15 e 16). Suponha, ainda, que essa 
dependência seja linear. Para verificarmos se essa suposição é verdadeira, obtiveram-se 20 
dados da seguinte maneira: 20 pessoas foram selecionadas, sendo 10 homens e 10 mulheres. 
Dentro de cada grupo de homens e mulheres foram selecionadas duas pessoas das seguintes 
faixas de idade: 20, 25, 30, 35 e 40 anos. Cada pessoa foi submetida ao teste e seu tempo de 
reação y foi medido. A população poderia ser considerada como formada por todas aquelas 
pessoas que viessem a ser submetidas ao teste, segundo o sexo e a idade. A amostra é formada 
pelas 20 medidas, que estão apresentadas na Tabela 15.1. 


Observações. 

(i) Os três últimos exemplos mostram uma ampliação do conceito definido de população, ou seja, 
designamos agora a população como a função probabilidade ou função densidade de 
probabilidade de uma v.a. X, modelando a característica de interesse. Esse artifício simplifica 
substancialmente o problema estatístico, exigindo no entanto uma proposta de modelo para a 
variável X. Nesses casos simplificaremos a linguagem, dizendo: “seja a população f(x)”. Por 
exemplo, “considere a população das alturas X - N(y, 0º)”. 

(ii) Essa abordagem, por meio da distribuição de probabilidades, utiliza muitas vezes o conceito 
de população infinita contínua, exigindo um tratamento matemático mais cuidadoso. É mais 
fácil apresentar os problemas e soluções por meio de populações finitas. É o que faremos 


muitas vezes. Entretanto, é importante que o estudante aprenda a trabalhar com o conceito de 
modelo, explorando o caso de “população f(x)”. 


10.3 Problemas de Inferência 


Como já dissemos anteriormente, o objetivo da Inferência Estatística é produzir afirmações 
sobre dada característica da população, na qual estamos interessados, a partir de informações 
colhidas de uma parte dessa população. Essa característica na população pode ser representada 
por uma variável aleatória. Se tivéssemos informação completa sobre a função de probabilidade, 
no caso discreto, ou sobre a função densidade de probabilidade, no caso contínuo, da variável em 
questão, não teríamos necessidade de escolher uma amostra. Toda a informação desejada seria 
obtida por meio da distribuição da variável, usando-se a teoria estudada anteriormente. 

Mas isso raramente acontece. Ou não temos qualquer informação a respeito da variável, ou ela 
é apenas parcial. Podemos admitir, como no exemplo das alturas de brasileiros adultos, que ela 
siga uma distribuição normal, mas desconhecemos os parâmetros que a caracterizam (média, 
variância). Em outros casos, podemos ter uma ideia desses parâmetros, mas desconhecemos a 
forma da curva. Ou ainda, o que é muito frequente, não possuímos informações nem sobre os 
parâmetros, nem sobre a forma da curva. Em todos os casos, o uso de uma amostra nos ajudaria a 
formar uma opinião sobre o comportamento da variável (população). 

Embora a identificação e a descrição da população sejam fundamentais no processo 
inferencial, é comum os pesquisadores dedicarem mais atenção em descrever a amostra do que a 
população para a qual serão feitas as afirmações. É imprescindível que se explicite claramente a 
população investigada. 

Neste livro, estaremos mais preocupados em trabalhar com populações descritas por modelos 
do que com populações finitas identificadas por elementos portadores de uma característica de 
interesse. Portanto, na maioria das vezes, iremos nos referir à “população X”, significando que a 
variável de interesse X, definida sobre a população-alvo, segue uma distribuição f(x). Nosso 
problema de interesse passaria a ser o de fazer afirmações sobre a forma da curva e seus 
parâmetros. 

Alguns exemplos simples nos darão uma noção dos tipos de formulações e problemas que a 
inferência estatística pode nos ajudar a resolver. 


Exemplo 10.5 (continuação) Voltemos ao exemplo da moeda. Indicando por X o número de caras 
obtidas depois de lançar a moeda 50 vezes, sabemos que, se tomados alguns cuidados quando do 
lançamento, X segue uma distribuição binomial, ou seja, X - b(50, p). Esse modelo é válido, 
admitindo-se ou não a “honestidade” da moeda, isto é, sendo ou não p = 1/2. Lançada a moeda, 
vamos supor que tenham ocorrido 36 caras. Esse resultado traz evidência de que a moeda seja 
“honesta”? Para tomarmos uma decisão, podemos partir do princípio de que a moeda não 
favorece nem cara nem coroa, isto é, p = 1/2. Com essa informação e com o modelo binomial, 
podemos encontrar qual a probabilidade de se obterem 36 caras ou mais, e esse resultado nos 
ajudaria a tomar uma decisão. Suponha que a decisão foi rejeitar a “honestidade” da moeda: qual 
é a melhor estimativa para p, baseando-se no resultado observado? 

Descrevemos aí os dois problemas básicos da Inferência Estatística: o primeiro é chamado 
teste de hipóteses, e o segundo, estimação. Nos capítulos seguintes, esses problemas serão 
abordados com mais detalhes. 


Exemplo 10.4 (Continuação) Às vezes, o modelo teórico associado ao problema não é tão evidente. 
No caso da máquina de encher pacotes de café automaticamente, digamos que ela esteja regulada 
para enchê-los segundo uma distribuição normal com média 500 gramas e desvio padrão de 10 
gramas, isto é, X - N(500, 107). Sabemos também que, às vezes, a máquina desregula-se e, 
quando isso acontece, o único parâmetro que se altera é a média, permanecendo a mesma 
variância. Para manter a produção sob controle, iremos colher uma amostra de 100 pacotes e 
pesá-los. Como essa amostra nos ajudará a tomar uma decisão? Parece razoável, nesse caso, 
usarmos a média x da amostra como informação pertinente para uma decisão. Mesmo que a 
máquina esteja regulada, dificilmente x será igual a 500 gramas, dado que os pacotes apresentam 
certa variabilidade no peso. Mas se x não se afastar muito de 500 gramas, não existirão razões 
para suspeitarmos da qualidade do procedimento de produção. Só iremos pedir uma revisão se x - 
500, em valor absoluto, for “muito grande”. 

O problema que se apresenta agora é o de decidir o que é próximo ou distante de 500 gramas. 
Se o mesmo procedimento de colher a amostra de 100 pacotes fosse repetido um número muito 
grande de vezes, sob a condição de a máquina estar regulada, teríamos ideia do comportamento 
da v.a. x, e saberíamos dizer se aquele valor observado é ou não um evento raro de ocorrer. Caso 
o seja, é mais fácil suspeitar da regulagem da máquina do que do acaso. 

Vemos, então, a importância nesse caso de se conhecer as propriedades da distribuição da 
variável x. 


Exemplo 10.6 (continuação) A descrição matemática da v.a. Y: tempo de reação ao estímulo é um 
pouco mais complexa. Podemos supor que esse tempo, para uma dada idade x, seja uma v.a. com 
distribuição normal, com média dependendo da idade x, ou seja, podemos escrever 
Y- N(u(x), 0º). 
A linearidade expressa no problema pode ser incluída na média p(x) da seguinte maneira: 
HQ) = a + Bx. 

Voltaremos a esse modelo no Capítulo 16. Outra maneira de escrever as duas relações 

anteriores é 
Y|x- N(a+ Bx; 02. 

Leia-se “Y dado x”. 

Podemos, por exemplo, estimar os parâmetros a e B, baseados na amostra de 20 dados. Ou 
podemos querer investigar a possibilidade de B ser igual a zero, significando que a idade não 
afeta o tempo de reação. Novamente, os dois principais problemas de inferência aparecem aqui: 
estimação e teste de uma hipótese. Um outro problema importante em inferência é o de previsão. 
Por exemplo, considerando um grupo de pessoas de 40 anos, poderemos prever com o modelo 
acima qual será o respectivo tempo de reação. 

Repetir um mesmo experimento muitas vezes, sob as mesmas condições, nem sempre é 
possível, mas em determinadas condições é possível determinar teoricamente o comportamento 
de algumas medidas feitas na amostra, como por exemplo a média. Mas isso depende, em grande 
parte, do procedimento (plano) adotado para selecionar a amostra. Assim, em problemas 
envolvendo amostras, antes de tomarmos uma decisão, teríamos de responder a quatro perguntas: 

(a) Qual a população a ser amostrada? 

(b) Como obter os dados (a amostra)? 

(c) Que informações pertinentes (estatísticas) serão retiradas da amostra? 


(d) Como se comporta(m) a(s) estatística(s) quando o mesmo procedimento de escolher a 
amostra é usado numa população conhecida? 
Nas seções e capítulos subsequentes, tentaremos responder a essas perguntas. 


10.4 Como Selecionar uma Amostra 


As observações contidas em uma amostra são tanto mais informativas sobre a população 
quanto mais conhecimento explícito ou implícito tivermos dessa mesma população. Por 
exemplo, a análise da quantidade de glóbulos brancos obtida de algumas gotas de sangue da 
ponta do dedo de um paciente dará uma ideia geral da quantidade dos glóbulos brancos no corpo 
todo, pois sabe-se que a distribuição dos glóbulos brancos é homogênea, e de qualquer lugar que 
se tivesse retirado a amostra ela seria “representativa”. Mas nem sempre a escolha de uma 
amostra adequada é imediata. Voltando ao Exemplo 10.2, para o qual queríamos obter uma 
amostra de habitantes para saber a opinião sobre um projeto governamental, escolhendo 
intencionalmente uma amostra de 200 indivíduos moradores de certa região beneficiada pelo 
projeto, saberemos de antemão que o resultado conterá um viés de seleção. Isto é, na amostra, a 
proporção de pessoas favoráveis ao projeto deverá ser maior do que no todo, donde a 
importância da adoção de procedimentos científicos que permitam fazer inferências adequadas 
sobre a população. 

A maneira de se obter a amostra é tão importante, e existem tantos modos de fazê-lo, que esses 
procedimentos constituem especialidades dentro da Estatística, sendo Amostragem e 
Planejamento de Experimentos as duas mais conhecidas. Poderíamos dividir os procedimentos 
científicos de obtenção de dados amostrais em três grandes grupos: 

(a) Levantamentos Amostrais, nos quais a amostra é obtida de uma população bem definida, 
por meio de processos bem protocolados e controlados pelo pesquisador. Podemos, ainda, 
subdividi-los em dois subgrupos: levantamentos probabilísticos e não probabilísticos. O 
primeiro reúne todas aquelas técnicas que usam mecanismos aleatórios de seleção dos 
elementos de uma amostra, atribuindo a cada um deles uma probabilidade, conhecida a 
priori, de pertencer à amostra. No segundo grupo estão os demais procedimentos, tais 
como: amostras intencionais, nas quais os elementos são selecionados com o auxílio de 
especialistas, e amostras de voluntários, como ocorre em alguns testes sobre novos 
medicamentos e vacinas. Ambos os procedimentos têm suas vantagens e desvantagens. A 
grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida, 
baseando-se no resultado contido na própria amostra. Tais medidas já são bem mais difíceis 
para os procedimentos do segundo grupo. 

Estão nessa situação os Exemplos 10.1 (conhecer os salários da Cia. MB), 10.2 (identificar a 
proporção de indivíduos favoráveis ao projeto), 10.4 (pesos dos pacotes de café) etc. 

(b) Planejamento de Experimentos, cujo principal objetivo é o de analisar o efeito de uma 
variável sobre outra. Requer, portanto, interferências do pesquisador sobre o ambiente em 
estudo (população), bem como o controle de fatores externos, com o intuito de medir o 
efeito desejado. Podemos citar como exemplos aquele já citado sobre a altura de um 
produto na gôndola de um supermercado afetar as vendas e o Exemplo 10.6. Em ensaios 
clínicos em medicina, esse tipo de estudo é bastante usado, como por exemplo para testar se 
um novo medicamento é eficaz ou não para curar certa doença. 


(c) Levantamentos Observacionais, nos quais os dados são coletados sem que o pesquisador 
tenha controle sobre as informações obtidas, exceto eventualmente sobre possíveis erros 
grosseiros. As séries de dados temporais são exemplos típicos desses levantamentos. Por 
exemplo, queremos prever as vendas de uma empresa em função de vendas passadas. O 
pesquisador não pode selecionar dados, esses são as vendas efetivamente ocorridas. Nesses 
casos, a especificação de um modelo desempenha um papel crucial na ligação entre dados e 
população. 

No caso de uma série temporal, o modelo subjacente é o de processo estocástico; podemos 
pensar que a série efetivamente observada é uma das infinitas possíveis realizações desse 
processo. A população hipotética aqui seria o conjunto de todas essas realizações, e a série 
observada seria a amostra. Veja Morettin e Toloi (2006) para mais informações. 

Neste livro, iremos nos concentrar principalmente em levantamentos amostrais e, mais ainda, 
num caso simples de amostragem probabilística, a amostragem aleatória simples, com 
reposição, a ser designada por AAS. O leitor poderá consultar Bussab e Bolfarine (2005) para 
obter mais detalhes sobre outros procedimentos amostrais. Um breve resumo sobre alguns planos 
é dado no Problema 37. Noções sobre planejamento de experimentos podem ser vistas em Peres 
e Saldiva (1982). 


1. Dê sua opinião sobre os tipos de problemas que surgiriam nos seguintes planos amostrais: 
(a) Para investigar a proporção dos operários de uma fábrica favoráveis à mudança do início das atividades das 7h para as 
7h30, decidiu-se entrevistar os 30 primeiros operários que chegassem à fábrica na quarta-feira. 
(b) Mesmo procedimento, só que o objetivo é estimar a altura média dos operários. 
(c) Para estimar a porcentagem média da receita municipal investida em lazer, enviaram-se questionários a todas as prefeituras, 
e a amostra foi formada pelas prefeituras que enviaram as respostas. 
(d) Para verificar o fato de oferecer brindes nas vendas de sabão em pó, tomaram-se quatro supermercados na zona sul e quatro 
na zona norte de uma cidade. Nas quatro lojas da zona sul, o produto era vendido com brinde, enquanto nas outras quatro era 
vendido sem brinde. No fim do mês, compararam-se as vendas da zona sul com as da zona norte. 

2. Refazer o Problema 7 do Capítulo 8. 


10.5 Amostragem Aleatória Simples 


A amostragem aleatória simples é a maneira mais fácil para selecionarmos uma amostra 
probabilística de uma população. Além disso, o conhecimento adquirido com esse procedimento 
servirá de base para o aprendizado e desenvolvimento de outros procedimentos amostrais, 
planejamento de experimentos, estudos observacionais etc. Comecemos introduzindo o conceito 
de AAS de uma população finita, para a qual temos uma listagem de todas as N unidades 
elementares. Podemos obter uma amostra nessas condições, escrevendo cada elemento da 
população num cartão, misturando-os numa urna e sorteando tantos cartões quantos desejarmos 
na amostra. Esse procedimento torna-se inviável quando a população é muito grande. Nesse 
caso, usa-se um processo alternativo, no qual os elementos são numerados e em seguida 
sorteados por meio de uma tabela de números aleatórios (veja a sua utilização em Problemas e 
Complementos) ou por meio do uso de computadores, que podem gerar números aleatórios (veja 
o Capítulo 9). 

Utilizando-se um procedimento aleatório, sorteia-se um elemento da população, sendo que 
todos os elementos têm a mesma probabilidade de ser selecionados. Repete-se o procedimento 
até que sejam sorteadas as n unidades da amostra. 


Podemos ter uma AAS com reposição, se for permitido que uma unidade possa ser sorteada 
mais de uma vez, e sem reposição, se a unidade sorteada for removida da população. 

Do ponto de vista da quantidade de informação contida na amostra, amostrar sem reposição é 
mais adequado. Contudo, a amostragem com reposição conduz a um tratamento teórico mais 
simples, pois ela implica que tenhamos independência entre as unidades selecionadas. Essa 
independência facilita o desenvolvimento das propriedades dos estimadores que serão 
considerados. 

Portanto, para o restante do livro, o plano amostral considerado será o de amostragem 
aleatória simples com reposição, que denotaremos simplesmente por AAS. 

Vejamos com algum detalhe o significado mais preciso de uma amostra. 


Exemplo 10.7 Considere o Problema 2 acima, em que colhemos todas as amostras possíveis de 
tamanho 2, com reposição, da população (1, 3, 5, 5, 7). Defina a variável X: valor assumido pelo 
elemento na população. Então, a distribuição de X é dada pela Tabela 10.1. 


Tabela 10.1 Distribuição da v.a. X para o Problema 2. 


x k 3 o 7 
P(X=x) | 1/5/1525 | 1/5 


Indicando por X, o número selecionado na primeira extração e por X, o número selecionado na 
segunda extração, vimos que era possível escrever a distribuição conjunta do par (X,, X,). Veja 
também a Tabela 10.2. Além disso, as distribuições marginais de X, e X, são independentes e 
iguais à distribuição de X. Desse modo, cada uma das 25 possíveis amostras de tamanho 2 que 
podemos extrair dessa população corresponde a observar uma particular realização da v.a. (X,, 
X), com X, e X, independentes e P(X, = x) = P(X, = x) = P(X = x), para todo x. Essa é a 
caracterização de amostra casual simples que iremos usar neste livro. 


Definição. Uma amostra aleatória simples de tamanho n de uma variável aleatória X, com dada 
distribuição, é o conjunto de n variáveis aleatórias independentes X,, X,, ..., X,, cada uma com a 
mesma distribuição de X. 

Ou seja, a amostra será a n-upla ordenada (X,, X,, ..., X,), em que X, indica a observação do i- 
ésimo elemento sorteado. 

Quando a população é caracterizada por uma distribuição de probabilidades, o modo mais 
simples para sortear uma AAS é usar os procedimentos de simulação estudados no Capítulo 9. O 
processo de simular uma observação de uma distribuição especificada por seus parâmetros nada 
mais é do que retirar uma AAS de tamanho um da população. Desse modo, para retirar uma AAS 
(com reposição) de n indivíduos da população X, basta gerar n números aleatórios independentes 
dessa distribuição. 


Exemplo 10.8 Vamos retirar uma AAS de 5 alturas (em cm) de uma população de mulheres cujas 
alturas X seguem a distribuição N(167; 25). 
Usando-se, por exemplo, o gerador de números aleatórios do Excel, fornecendo os parâmetros 
p=167eo= 5, além do tamanho da amostra n = 5, obtemos os valores: 
x, = 165, x,= 161,x,= 168,x,= 173,x,= 173: 


Note que, se você for gerar uma tal amostra, poderá obter valores diferentes desses. Observe, 
também, que o primeiro elemento a ser observado pode ser qualquer valor da população 
simulada N(167; 25). Desse modo, indicando por X, o valor observado na primeira extração, 
concluímos que X, - N(167; 25). Como a geração do segundo número aleatório é feita 
independentemente do segundo, resulta que a v.a. X,, valor observado na segunda extração, 
também segue uma distribuição N(167; 25), e assim por diante. 

Diante do exposto, vemos que continua válida a definição de AAS dada acima, quando a 
amostra é retirada de uma população referenciada pela sua distribuição de probabilidades. 

No caso de uma população X contínua, com f.d.p. f(x), a f.d.p. conjunta da amostra (X,, X,, ..., 
X,), segundo o que vimos no Capítulo 8, será dada por 


ÃO Xos +.» Xn) = AO) DOS)... xo), 
em que f(x;) denota a distribuição (marginal) de X, i=1,...,n. 

Antes de prosseguirmos, seria interessante fazer uma comparação da inferência estatística com 
o processo de simulação da população. 

Podemos imaginar que qualquer característica X de interesse seja produzida por um 
“programa” (modelo) de gerador de números aleatórios, e que somente o “proprietário” 
(natureza) desse programa é que conhece a forma da distribuição de X, os valores dos parâmetros 
etc. relacionados ao programa. Quando “obtemos” a amostra, estamos apenas observando o 
resultado da simulação, não conhecemos nada do processo gerador dos dados. O objetivo da 
inferência estatística é fornecer critérios para nos ajudar a descobrir a forma da distribuição e/ou 
parâmetros usados pelo “proprietário”. Bons indicadores desses valores nos ajudam a entender 
melhor os fenômenos e fazer previsões para futuras observações. 

Daqui para frente, a menos que esteja especificada de outra maneira, sempre que 
mencionarmos a palavra amostra, estaremos entendendo a amostra obtida pelo processo 
probabilístico AAS, ou seja, o vetor aleatório (X,, X,, ..., X,) definido acima. 


3. A distribuição do número de filhos, por família, de uma zona rural está no quadro abaixo. 


Nº de filhos | Porcentagem 
0 10 
1 20 
) 30 
3 25 
4 15 
Total 100 


(a) Sugira um procedimento para sortear uma observação ao acaso dessa população. 

(b) Dê, na forma de uma tabela de dupla entrada, as possíveis amostras do número de filhos de duas famílias que podem ser 
sorteadas e as respectivas probabilidades de ocorrência. 

(c) Se fosse escolhida uma amostra de tamanho 4, qual seria a probabilidade de se observar a quádrupla ordenada (2, 3, 3, 1)? 


10.6 Estatísticas e Parâmetros 


Obtida uma amostra, muitas vezes desejamos usá-la para produzir alguma característica 
específica. Por exemplo, se quisermos calcular a média da amostra (X,, X,, ..., X,), esta será dada 


por 
ar 
EX +X,+..+X,). 
Pe ane à 
E fácil verificar que X é também uma variável aleatória. Podemos também estar interessados 


em qualquer outra característica da amostra, que será sempre uma função do vetor aleatório (X,, 
ga). 


Definição. Uma estatística é uma característica da amostra, ou seja, uma estatística T é uma função 
de X, X, ..., X, 
As estatísticas mais comuns são: 


X=1/n b% X,: média da amostra, 


si=— >: (x, =X): variância da amostra, 
n—-) & 
t=1 
NX = min(X,, X,,...,X, ): o menor valor da amostra, 
X = max (X,,X,,...,X,): o maior valor da amostra, 
W=X— Xy: amplitude amostral, 


X=a i—ésima maior observação da amostra 


Em geral, como já vimos no Capítulo 3, podemos considerar as estatísticas de ordem, 


Xa) < Ko) ES Kay 


ou seja, os elementos da amostra ordenados. 

Outras estatísticas importantes são os quantis (empíricos), q(p), O <p < 1, definidos no 
Capítulo 3, especialmente os três quartis q,, q, € Gs 

Para facilitar a linguagem usada em Inferência Estatística, iremos diferenciar as características 
da amostra e da população. 


Definição. Um parâmetro é uma medida usada para descrever uma característica da população. 
Assim, se estivermos colhendo amostras de uma população, identificada pela v.a. X, seriam 
parâmetros a média E(X) e sua variância Var(X). 
Os símbolos mais comuns são dados na tabela a seguir. 


Denominação População Amostra 
Média p= E(X) -X=LX/n 
Mediana Md = Q, md = q, 
Variância o? = Var(X) | S2=L(X,--X)Kn— 1) 
Nº de elementos N n 
Proporção p pr 
Quantil Q(p) a(p) 
Quartis Q,, Oo, Q5 Qu do G 
Distância Interquartil | d=0;-Q, do=W-G 
Função densidade ft) histograma 
Função de distribuição F(x) F.(x) 


10.7 Distribuições Amostrais 


Vimos, na Seção 10.3, que o problema da inferência estatística é fazer uma afirmação sobre os 
parâmetros da população por meio da amostra. Digamos que nossa afirmação deva ser feita sobre 
um parâmetro q da população (por exemplo, a média, a variância ou qualquer outra medida). 
Decidimos que usaremos uma AAS de n elementos sorteados dessa população. Nossa decisão 
será baseada na estatística T, que será uma função da amostra (X,, X,, ..., X,), ou seja, T=f(X, 
... X,). Colhida essa amostra, teremos observado um particular valor de T, digamos t,, e baseados 
nesse valor é que faremos a afirmação sobre q, o parâmetro populacional. Veja a Figura 10.1 (a). 

A validade da nossa resposta seria melhor compreendida se soubéssemos o que acontece com 
a estatística T, quando retiramos todas as amostras de uma população conhecida segundo o plano 
amostral adotado. Isto é, qual a distribuição de T' quando (X,, ..., X,) assume todos os valores 
possíveis. Essa distribuição é chamada distribuição amostral da estatística T e desempenha 
papel fundamental na teoria da inferência estatística. Esquematicamente, teríamos o 
procedimento representado na Figura 10.1, em que temos: 


(a) uma população X, com determinado parâmetro de interesse 0; 

(b) todas as amostras retiradas da população, de acordo com certo procedimento; 

(c) para cada amostra, calculamos o valor t da estatística T; e 

(d) os valores t formam uma nova população, cuja distribuição recebe o nome de distribuição 
amostral de T. 


Figura 10.1 (a) Esquema de inferência sobre 0. (b) Distribuição amostral da estatística T. 
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Vejamos alguns exemplos simples para aclarar um pouco mais o conceito de distribuição 
amostral de uma estatística. Nosso principal objetivo é identificar um modelo que explique bem 
a distribuição amostral de T. É evidente que a distribuição de T irá depender da distribuição de X 
e do plano amostral, em nosso caso reduzido a AAS. 


Exemplo 10.9 Voltemos ao Exemplo 10.7, no qual selecionamos todas as amostras de tamanho 2, 
com reposição, da população (1, 3, 5, 5, 7). A distribuição conjunta da variável bidimensional 


(X,, X,) é dada na Tabela 10.2. 
Vejamos qual é a distribuição da estatística 


pefitdo (10.1) 


Essa distribuição é obtida por meio da Tabela 10.2. Por exemplo, quando a amostra 
selecionada é o par (1, 1), a média será 1; então, temos que P( X = 1) = 1/25. Obteremos a média 
igual a 3 quando ocorrer o evento A = ((1, 5);(3, 3),(5, 1)J, logo 


O O MD 


P(X=3)=P(A)=ctostostos os 


Tabela 10.2 Distribuição das probabilidades das possíveis amostras de tamanho 2 que podem ser selecionadas com reposição da 
população (1, 3,5, 5, 7). 


Total 


Total 


Procedendo de maneira análoga para os demais valores que X pode assumir, obtemos a Tabela 
10.3, que dá a distribuição da v.a. X. Na Figura 10.2 temos as distribuições de X e de X. 


Tabela 10.3 Distribuição amostral da estatística X. 


— 1 2 3 4 5 6 7 | Total 
P(-X =») | 1/25 | 2/25 | 5/25 | 6/25 | 6/25 | 4/25 | 1/25 | 1,00 


Figura 10.2 Distribuição de X( Je X( ), obtida de 25 amostras de tamanho 2 de (1, 3,5, 5, 7). 


a] 


Com um procedimento análogo podemos obter as distribuições amostrais de outras estatísticas 
de interesse. As Tabelas 10.4 e 10.5 trazem as distribuições amostrais das estatísticas W = 
amplitude total e S? = X(X, - X)º/(n - 1), respectivamente. 


w 0 2 4 6 | Total 
P(W=w) | 7/25 | 10/25 | 6/25 | 2/25 | 1,00 


Tabela 10.4 Distribuição amostral de W. 


Tabela 10.5 Distribuição amostral de Sº. 


s? 0 2 8 18 | Total 
P(S?=s?) | 7/25 | 10/25 | 6/25 | 2/25 | 1,00 


Exemplo 10.5 (continuação) No caso do lançamento de uma moeda 50 vezes, usando como 
estatística X = número de caras obtidas, a obtenção da distribuição amostral, que já foi vista, é 
feita por meio do modelo binomial b(50, p), qualquer que seja p = probabilidade de ocorrência de 
cara num lançamento, O < p < 1. Se estivermos interessados em julgar a “honestidade” da moeda, 
estaremos verificando se p = 0,5. Nessas condições, a P(X > 36jn = 50, p = 0,5) = 0,0013 = 
0,13%. 

Portanto, caso a moeda seja honesta, em 50 lançamentos, a probabilidade de se obterem 36 ou 
mais caras é da ordem de 1 por 1.000. Ou seja, se a moeda fosse honesta, o resultado observado 
(36 caras) seria muito pouco provável, evidenciando que p > 0,5. 

Comparando os dois últimos exemplos, vemos que nos interessa determinar propriedades das 
distribuições amostrais que possam ser aplicadas em situações mais gerais (como no caso 
binomial) e não em situações muito particulares (como no Exemplo 10.7). Iremos, agora, estudar 
as distribuições amostrais de algumas estatísticas importantes. Nos capítulos seguintes essas 
distribuições serão usadas para fazer inferências sobre populações. 

Quando estivermos trabalhando com populações identificadas pela distribuição de 
probabilidades, não poderemos gerar todas as amostras possíveis. Devemos contentar-nos em 
simular um número “grande” de amostras e ter uma ideia do que acontece com a estatística de 
interesse. 


Exemplo 10.8 (continuação) Qual seria a distribuição amostral da mediana das alturas de amostras 
de 5 mulheres retiradas da população X - N(167; 25)? Como não podemos gerar todas as 
possíveis amostras de tamanho 5 dessa população, simulamos, via Excel, 200 amostras de 
tamanho 5 e obtivemos os seguintes resultados: 
E(md) = 166,88, Var(md) = 7,4289, dp(md) = 2,72, 
Xay = min(X,, ..., X,o0) = 160, X,00) = Max (X,, ...; X,o9) = 173. 

Observando os resultados somos levados a pensar que a distribuição amostral de md deve ser 
próxima de uma normal, com média próxima de y = 167 e desvio padrão menor do que o = 5. 
Veja a Figura 10.83. 

Voltaremos a falar na distribuição da mediana amostral em seções futuras. 


Figura 10.3 Distribuição amostral da mediana, obtida de 200 amostras de tamanho 5 de X - N (167; 25). 
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4. Usando os dados da Tabela 10.2, construa a distribuição amostral da estatística 
(x, =X F 
= ? 
5. No Problema 3, se X indicar o número de filhos na população, X, o número de filhos observados na primeira extração e X, na 


&= 


segunda: 
(a) calcule a média e a variância de X; 


(b) calcule E(X;) e Var(X;), i = 1, 2; 
(c) construa a distribuição amostral de XY « ( 
(d) calcule E(X) e Var(X); 


(e) faça num mesmo gráfico os histogramas de X e de X; 
(f) construa as distribuições amostrais de 


X+X,) 
sta, 


Sm DA, E x) es =Da(X, E za; 
(9) baseado no resultado de (f), qual dos dois estimadores você usaria para estimar a variância de X? Por quê? 
(h) calcule P(|X - || > 1). 
6. Ainda com os dados do Problema 3, e para amostras de tamanho 3: 
(a) determine a distribuição amostral de X e faça o histograma; 
(b) calcule a média e variância de X; 
(c) calcule P(|X - ||> 1). 
(d) se as amostras fossem de tamanho 4, a P(|x E | > 1) seria maior ou menor do que a probabilidade encontrada em (c)? Por 
quê? 


10.8 Distribuição Amostral da Média 


Vamos estudar agora a distribuição amostral da estatística X, a média da amostra. 
Consideremos uma população identificada pela variável X, cujos parâmetros média populacional 
p = E(X) e variância populacional o? = Var(X) são supostos conhecidos. Vamos retirar todas as 
possíveis AAS de tamanho n dessa população, e para cada uma calcular a média X. Em seguida, 
consideremos a distribuição amostral e estudemos suas propriedades. Voltemos a considerar, a 
título de ilustração, o Exemplo 10.7. 


Exemplo 10.10 A população Tl, 3,5, 5, 7) tem média p = 4,2 e variância 0? = 4,16. 
A distribuição amostral de X está na Tabela 10.3, da qual obtemos 
| 2 5 6 6 4 I 


Dl ac pa ud = do = óleo 


De modo análogo, encontramos 
Var(X) = 2,08. 
Verificamos, aqui, dois fatos: primeiro, a média das médias amostrais coincide com a média 
populacional; segundo, a variância de X é igual à variância de X, dividida por n = 2. Estes dois 
fatos não são casos isolados. Na realidade, temos o seguinte resultado. 


Teorema 10.1 Seja X uma v.a. com média | e variância 0º, e seja (X,, ..., X,) uma AAS de X. Então, 


o? 
E(X)=u e Var(X)=—. 
' n 


Prova. Pelas propriedades vistas no Capítulo 8, temos: 
E(X) = (Un) LE(X) +... + E(X)) 


=1m)(p+p+..+pny=nyn=p. 


De modo análogo, e pelo fato de X,, ..., X, serem independentes, temos 
Var( X) = (1/n?) (Var(X) +... + Var(X)) 
=(1/n?) (0? +... + 0?) = noº/nº = o?/n. 

Determinamos, então, a média e a variância da distribuição amostral de X. Vejamos, agora, 
como obter informação sobre a forma da distribuição dessa estatística. 
Exemplo 10.10 (continuação) Para a população t1, 3, 5, 5, 7), vamos construir os histogramas das 
distribuições de X paran = 1,2 e 3. o o 

(i) Para n = 1, vemos que a distribuição de X coincide com a distribuição de X, com E(X) = 

E(X) = 4,2 e Var(X) = Var(X) = 4,16 (Figura 10.4(a)). 


Figura 10.4 Distribuição de X para amostras de (1, 3,5, 5, 7). 
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(ii) Para n = 2, baseados na Tabela 10.3, temos a distribuição de X dada na Figura 10.4(b), 
com E(X) = 4,2 e Var(X) = 2,08. 

(iii) Finalmente, para n = 3, com os dados da Tabela 10.6, temos a distribuição de X na Figura 
10.4 (c), com E(X) = 4,2 e Var(x) = 1,39. 

Observe que, conforme n vai aumentando, o histograma tende a se concentrar cada vez mais 
em torno de E(X) = E(X) = 4,2, já que a variância vai diminuindo. Os casos extremos passam a 
ter pequena probabilidade de ocorrência. Quando n for suficientemente grande, o histograma 
alisado aproxima-se de uma distribuição normal. Essa aproximação pode ser verificada 
analisando-se os gráficos da Figura 10.5, que mostram o comportamento do histograma de X 
para várias formas da distribuição da população e vários valores do tamanho da amostra n. 

Esses exemplos sugerem que, quando o tamanho da amostra aumenta, independentemente da 
forma da distribuição da população, a distribuição amostral de X aproxima-se cada vez mais de 
uma distribuição normal. Esse resultado, fundamental na teoria da Inferência Estatística, é 
conhecido como Teorema Limite Central (TLC). 


Figura 10.5 Histogramas correspondentes às distribuições amostrais de X para amostras extraídas de algumas populações. 
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Teorema 10.2. (TLC) Para amostras aleatórias simples (X,, ..., X,), retiradas de uma população com 
média | e variância o? finita, a distribuição amostral da média X aproxima-se, para n grande, de 
uma distribuição normal, com média p e variância 0º/n. 

A demonstração completa desse teorema exigiria recursos dos quais não dispomos, portanto 
não será dada, mas o importante é sabermos como esse resultado pode ser usado. 

Observemos que, se a população for normal, então X terá distribuição exata normal. Esse 
resultado segue do fato de que a distribuição de uma combinação linear de v.a.'s normais 
independentes tem ainda distribuição normal. No caso da X, a média e variância dessa normal 
serão dadas pelo Teorema 10.1. A prova dessa propriedade depende do conceito de função 
geradora de momentos, que não será objeto deste livro. O leitor interessado pode consultar 
Meyer (1965), por exemplo. 


Exemplo 10.11 Voltemos ao Exemplo 10.4, em que uma máquina enchia pacotes cujos pesos 
seguiam uma distribuição N(500, 100). Colhendo-se um amostra de n = 100 pacotes e pesando- 
os, pelo que foi dito acima, X terá uma distribuição normal com média 500 e variância 100/100 = 
1. Logo, se a máquina estiver regulada, a probabilidade de encontrarmos a média de 100 pacotes 
diferindo de 500 g de menos de 2 gramas será 

P(IX- 500|<2)=P(498<X<502)=P(-22<Z<2)=95%. 

Ou seja, dificilmente 100 pacotes terão uma média fora do intervalo (498, 502). Caso 100 
pacotes apresentem uma média fora desse intervalo, podemos considerar como um evento raro, e 
será razoável supor que a máquina esteja desregulada. 

Outra maneira de apresentar o TLC é por meio do 


Corolário 10.1 Se (X,, ..., X,) for uma amostra aleatória simples da população X, com média pn e 
variância 0º finita, e X=(X, +... + X )/n, então 


E Sl 
= N(0,1). (10.2) 


h 


Basta notar que se usou a transformação usual de reduzir a distribuição de X a uma normal 
padrão. Observe, também, que (10.2) pode ser escrita como 


2-4) v(0. (10.3) 


Chamemos de e a v.a. que mede a diferença entre a estatística X e o parâmetro q, isto é, e = X - 
|; e é chamado o erro amostral da média. Então, temos o 


Corolário 10.2 A distribuição de e aproxima-se de uma distribuição normal com média O e variância 
0º/n, isto é, 
Vne (01). (10.4) 


(o) 


O TLC afirma que X aproxima-se de uma normal quando n tende para o infinito, e a rapidez 
dessa convergência (veja a Figura 10.5) depende da distribuição da população da qual a amostra 
é retirada. Se a população original tem uma distribuição próxima da normal, a convergência é 
rápida; se a população original se afasta muito de uma normal, a convergência é mais lenta, ou 
seja, necessitamos de uma amostra maior para que X tenha uma distribuição aproximadamente 
normal. Para amostras da ordem de 30 ou 50 elementos, a aproximação pode ser considerada 
boa. 


Problemas 


7. Uma v.a. X tem distribuição normal, com média 100 e desvio padrão 10. 
(a) Qual a P(90 < X< 110)? 
(b) Se X for a média de uma amostra de 16 elementos retirados dessa população, calcule P(90 < X < 110). 
(c) Represente, num único gráfico, as distribuições de X e X. 
(d) Que tamanho deveria ter a amostra para que P(90 < X < 110) = 0,95? 


8. A máquina de empacotar um determinado produto o faz segundo uma distribuição normal, com média | e desvio padrão 10 

g. 
(a) Em quanto deve ser regulado o peso médio |1 para que apenas 10% dos pacotes, tenham menos do que 500 g? 
(b) Com a máquina assim regulada, qual a probabilidade de que o peso total de 4 pacotes escolhidos ao acaso seja inferior a 2 
kg? 

9. No exemplo anterior, e após a máquina estar regulada, programou-se uma carta de controle de qualidade. De hora em hora, 
será retirada uma amostra de quatro pacotes, os quais serão pesados. Se a média da amostra for inferior a 495 g ou superior a 
520 g, encerra-se a produção para reajustar a máquina, isto é, reajustar o peso médio. 

(a) Qual é a probabilidade de ser feita uma parada desnecessária? 
(b) Se o peso médio da máquina desregulou-se para 500 g, qual é a probabilidade de continuar a produção fora dos padrões 
desejados? 
10. A capacidade máxima de um elevador é de 500 kg. Se a distribuição X dos pesos dos usuários for suposta N(70, 100): 
(a) Qual é a probabilidade de sete passageiros ultrapassarem esse limite? 
(b) E seis passageiros? 


10.9 Distribuição Amostral de uma Proporção 


Vamos considerar uma população em que a proporção de elementos portadores de certa 
característica é p. Logo, podemos definir uma v.a. X, da seguinte maneira: 
|, seo individuo for portador da caracteristica 
R a se o individuo n,,0 for portador da caracteristica, 


logo, 
p=E()=p,oº=Var(X) =p(1 - p). 


Retirada uma AAS dessa população, e indicando por Y, o total de indivíduos portadores da 
característica na amostra, já vimos que 
Y,- b(n, p). 
Vamos definir por » a proporção de indivíduos portadores da característica na amostra, isto é, 


J [e 


Ê = 
Então, 
P(Y, = k)= P(Y/n = k'n) = P(p = kn), 
ou seja, a distribuição amostral de p é obtida da distribuição de Y.. 
Vimos na Seção 7.5 que a distribuição binomial pode ser aproximada pela distribuição normal. 
Vamos mostrar que a justificativa desse fato está no TLC. Inicialmente, observe que 
V=EXAXK A +X, 
em que cada X, tem distribuição de Bernoulli, com média p = p e variância o? = p(1 - p), e são 
duas a duas independentes. Podemos escrever que 
Y=n Z: 
mas pelo TLC, X terá distribuição aproximadamente normal, com média p e variância pUcp), ou 
seja, 
5 plt=p) 
X — (o. 2tced) 
Logo, a transformação Y, = n X terá a distribuição 
Y,- N(np, np - p)), 
que foi a aproximação adotada na Seção 7.5. 


Observe que X, na expressão acima, é a própria variável » e, desse modo, para n grande 
podemos considerar a distribuição amostral de p como aproximadamente normal: 


p-m(p.20-2)] 


Exemplo 10.12 Suponha que p = 30% dos estudantes de uma escola sejam mulheres. Colhemos uma 

AAS de n = 10 estudantes e calculamos p = proporção de mulheres na amostra. Qual a 

probabilidade de que  difira de p em menos de 0,01? Temos que essa probabilidade é dada por 
P(|p - p|< 0,01) = P(-0,01< p-p<0,01). 


Mas, p-p- n(02821) e como p = 0,3, temos que 


Var(5) = (0, 3)(0, 7)/10 = 0,021, 
e, portanto, a probabilidade pedida é igual a 


[Es agi AM 


0,021 0,021 


Problemas 


11. Sabe-se que 20% das peças de um lote são defeituosas. Sorteiam-se oito peças, com reposição, e calcula-se a proporção p” de 
peças defeituosas na amostra. 
(a) Construa a distribuição exata de p (use a tábua da distribuição binomial). 


E P(-0,07<Z<0,07)=0,056. 


(b) Construa a aproximação normal à binomial. 

(c) Você pensa que a segunda distribuição é uma boa aproximação da primeira? 

(d) Já sabemos que, para dado p fixo, a aproximação melhora conforme n aumenta. Agora, se n for fixo, para qual valor de p a 

aproximação é melhor? 
12. Um procedimento de controle de qualidade foi planejado para garantir um máximo de 10% de itens defeituosos na produção. 
A cada 6 horas sorteia-se uma amostra de 20 peças e, havendo mais de 15% de defeituosas, encerra-se a produção para 
verificação do processo. Qual a probabilidade de uma parada desnecessária? 
13. Supondo que a produção do exemplo anterior esteja sob controle, isto é, p = 10%, e que os itens sejam vendidos em caixas 
com 100 unidades, qual a probabilidade de que uma caixa: 

(a) tenha mais do que 10% de defeituosos? 

(b) não tenha itens defeituosos? 


10.10 Outras Distribuições Amostrais 


Do mesmo modo que estudamos a distribuição amostral de X, podemos, em princípio, estudar 
a distribuição amostral de qualquer estatística T = f(X,, ..., X,). Mas, quanto mais complexa for 
essa relação f, mais difícil será a derivação matemática das propriedades dessa estatística. 
Vejamos alguns exemplos. 


Exemplo 10.13 Na Tabela 10.6 apresentamos a distribuição de três outras estatísticas; a variância da 
amostra, 


a mediana amostral, md, e o estimador 
a 14 —2 
8 = q oA% =X), 


que difere de Sº? apenas no denominador, e que foi estudado no Capítulo 3. Desta tabela, obtemos 
as distribuições amostrais apresentadas nas Tabelas 10.7, 10.8 e 10.9. 


Tabela 10.6 Distribuição amostral de algumas estatísticas obtidas de amostra de tamanho n = 3, retiradas da população (1, 3, 5, 5, 
(H=42,0º=4,16eMd =5). 


- Variância 
Tipo de amostra Frequência (prob. x 125) Soma Soma dos quadrados Médiax Mediana md E E 
114 1 3 3 1,00 1 0 0 
113 E E 1 1,67 1 43 | 8/9 
115 6 Fá 27 2,33 i 16/3 | 32/9 
117 3 9 5l 3,00 1 12 8 
133 3 Z 19 2,33 3 4/3 | 8/9 
135 12 9 35 3,00 3 4 8/3 
137 6 1 59 3,67 3 28/3 | 56/9 
155 12 1 sl 3,67 ) 16/3 | 32/9 
157 12 13 15 4,33 5 28/3 | 56/9 
177 3 15 99 5,00 e 12 8 
333 1 9 27 3,00 3 0 0 
335 6 1 43 3,67 g| 43 | 8/9 
337 | 13 67 4,33 3 16/3 | 32/9 
355 12 13 59 4,33 5 43 | 8/9 
357 12 1a 83 5,00 E] 4 8/3 
DZ 3 1 107 5,67 bi 16/3 | 32/9 
559 8 15 FE 5,00 o) 0 0 
557 12 LF 99 5,07 5 43 | 8/9 
DL 6 19 123 6,33 id 43 | 8/9 
rr 1 21 147 7,00 7 0 0 
Total 125 


Tabela 10.7 Distribuição amostral da variância S”, para amostras de tamanho 3, retiradas da população (1, 3, 5, 5, 7). 


s? 0,00 138 4,00 5,99 9,33 | 12,00 
P(S? = s?) | 11/125 | 42/125 | 24/125 | 24/125 | 18/125 | 6/125 


E(S? = 4,16, Var(S”) = 11,28. 


Tabela 10.8 Distribuição amostral da mediana da amostra md para amostras de tamanho 3, retiradas da população (1, 3, 5, 5, 7). 


md id 3 5 7 
Prob. | 13/125 | 31/125 | 68/125 | 13/125 


E(mad) = 4,30, Var(md) = 2,54. 


Tabela 10.9 Distribuição amostral da variância 6”, para amostras de tamanho 3, retiradas da população (1, 3, 5, 5, 7). 


[o 0,00 0,89 2,67 3,56 6,22 8,00 
Prob. | 11/125 | 42/125 | 24/125 | 24/125 | 18/125 | 6/125 


E(0”) = 2,77, Var(o”) = 5,04. 


Os gráficos das funções de probabilidade estão nas Figuras 10.6, 10.7 e 10.8. A obtenção das 
propriedades dessas estatísticas, de modo geral, não é uma tarefa fácil, e os modelos de 
probabilidade resultantes correspondem a distribuições mais complexas. 

Por exemplo, note que E(S?) = 4,16 = 02, logo Sº satisfaz uma propriedade análoga a E(X) = |; 
dizemos que X e Sº? são estimadores não viesados dos respectivos parâmetros pn e o2. Esta 
propriedade já não vale para md e 6º, pois E(md) = 4,3, enquanto Md = 5,0 e E(5?) = 2,77 e não 
4,16. Vemos que 6? sub-estima a verdadeira variância. 


Também pode-se demonstrar que S? segue uma distribuição que é um múltiplo de uma 
distribuição qui-quadrado (x?), quando a população tem distribuição normal. Ver a Seção 11.9. Já 
a mediana md, obtida de amostras de uma população simétrica, com média p e variância 02, 
segue aproximadamente uma distribuição normal, com média E(md) = p e Var(md) = (mo?)/(2n). 
Note que se exigem mais suposições do que aquelas mencionada no TLC. Nos Capítulos 11 e 12, 
voltaremos a discutir algumas distribuições amostrais e suas aplicações. 


Figura 10.6 Distribuição amostral de S” para amostras de tamanho n = 3 extraídas de (1,3,5,5, 7). 


011,33 400533 933 12008 


14. Usando os dados da Tabela 10.2: 
(a) construa a distribuição amostral de & e compare com a distribuição amostral de s? (Tabela 10.5). Você notou alguma 
propriedade de s? que seja “melhor” do que de 8? 
(b) seja U a média de elementos distintos de amostras de tamanho n = 3. Por exemplo, se a amostra observada for (1, 1, 3), 
então u = (1 + 3)/2 = 2. Construa a distribuição amostral de U; 


(c) compare as distribuições amostrais de U e X. 
15. Na tabela abaixo, tem-se a distribuição dos salários da Secretaria A. 


Classes de salários | Frequência relativa 
457,5 0,10 
7,5 10,5 0,20 
10,5 13,5 0,40 
13,5 = 16,5 0,20 
16,51 19,5 0,10 


(a) Calcule a média, a variância e a mediana dos salários nessa população. 

(b) Construa a distribuição amostral da média e da mediana para amostras de tamanho 2, retiradas dessa população. 

(c) Mostre que a média X e a mediana md da amostra são estimadores não viesados da mediana Md da população, no sentido 
que E(X) = E(md) = Md. 

(d) Qual dos dois estimadores não viesados você usaria para estimar Md nesse caso? Por quê? 

(e) Baseado na distribuição amostral da média, encontre a distribuição amostral da estatística 


y 638 
Ze A, 


para n = 2. 
(f) Quais são os valores de E(Z) e Var(Z)? 
(9) Construa a distribuição amostral da estatística 


e faça o seu histograma. 
(h) Calcule a média e variância de s?. 


(i) Baseando-se nas distribuições amostrais anteriores, determine a distribuição amostral da estatística 


X-u 
= vn, 


e construa seu histograma. Qual é o problema encontrado? 
(j) Calcule a média e variância de t, quando possível. 
(1X) Calcule a P(ft| < 2) e P(Jt| < 4,30). 
16. Tente esboçar como ficariam os histogramas das estatísticas abaixo, para amostras de tamanho grande. 
(a) s? (faça o histograma da distribuição da Tabela 10.5) 


(b) Z = An vn (Veja o Teorema Limite Central) 


o 


Au vn, definida no problema anterior (compare com a expressão e o resultado obtido em (b)). 


(c)t= g 


10.11 Determinação do Tamanho de uma Amostra 


Em nossas considerações anteriores, fizemos a suposição que o tamanho da amostra, n, era 
conhecido e fixo. Podemos, em certas ocasiões, querer determinar o tamanho da amostra a ser 
escolhida de uma população, de modo a obter um erro de estimação previamente estipulado, com 
determinado grau de confiança. 

Por exemplo, suponha que estejamos estimando a média py populacional e para tanto usaremos 
a média amostral, X, baseada numa amostra de tamanho n. Suponha que se queira determinar o 
valor de n de modo que 


p(jX - u|s e) zy. (10.5) 
com0<y<1lecéoerro amostral máximo que podemos suportar, ambos valores fixados. 


Sabemos que X - N(y, 02n), logo X - | = N(0, 02/n) e portanto (10.5) pode ser escrita 


= -vne ne 
<<X-ucejeP|— Cega ls 
P(-e<X-u<e) | = <Z< E ] Y. 


com Z=(X-u) Jn/o. Dado y, podemos obter z, da N(0,1), tal que P(-z, < Z <z,) = y, de modo que 
Jne 
E inicá 


do que obtemos finalmente 


iai A (10.6) 


Note que em (10.6) conhecemos z, e e, mas 0? é a variância desconhecida da população. Para 
podermos ter uma ideia sobre n devemos ter alguma informação prévia sobre o? ou, então, usar 
uma pequena amostra piloto para estimar o?. 


Exemplo 10.13 (continuação) Suponha que uma pequena amostra piloto de n = 10, extraída de uma 
população, forneceu os valores X= 15 e S? = 16. Fixando-se e = 0,5 e y = 0,95, temos 
2 
n= Jex[u 96)" = 245. 
(0.5) 
No caso de proporções, usando a aproximação normal da Seção 10.9 para , é fácil ver que 
(10.6) resulta 


po BUSAl (10.7) 


Como não conhecemos p, a verdadeira proporção populacional, podemos usar o fato de que 
p(1 - p) < 1/4, para todo p, e (10.7) fica 


na dis. (10.8) 


Por outro lado, se tivermos alguma informação sobre p ou pudermos estimá-lo usando uma 
amostra piloto, basta substituir esse valor estimado em (10.7). 


Exemplo 10.14 Suponha que numa pesquisa de mercado estima-se que no mínimo 60% das pessoas 
entrevistadas preferirão a marca A de um produto. Essa informação é baseada em pesquisas 
anteriores. Se quisermos que o erro amostral de p seja menor do que £ = 0,03, com probabilidade 
y = 0,95, teremos 
2 
na (196) (0,6)(0,4) 


: 1.024, 
(0,03) 


na qual usamos o fato de que p > 0,60. Veja também os Problemas 19, 20 e 41. 


Problemas 


17. Suponha que uma indústria farmacêutica deseja saber a quantos voluntários se deva aplicar uma vacina, de modo que a 
proporção de indivíduos imunizados na amostra difira de menos de 2% da proporção verdadeira de imunizados na população, 
com probabilidade 90%. Qual o tamanho da amostra a escolher? Use (10.8). 


18. No problema anterior, suponha que a indústria tenha a informação de que a proporção de imunizados pela vacina seja p 2 
0,80. Qual o novo tamanho de amostra a escolher? Houve redução? 


19. Seja o tamanho de amostra dado por (10.7) e ny dado por (10.8). Prove que, para todo p, temos n < no. (Use a função f(p) = 
p(1 - p) para sua resposta.) 

20. Suponha que haja a informação p < py < 0,5, com pç conhecida. Se n = z2poll - ps)/e>, mostre quen <n, < no. Mostre que 
essa mesma relação vale se soubermos que p 2 po 2 0,5. 


[Sugestão: note que f(p) = p(1 - p) é crescente em [0; 0,5], atinge o máximo em 0,5 e depois é decrescente em [0,5; 1].] 


10.12 Exemplos Computacionais 


Vimos, no Exemplo 10.7, como escolher todas as possíveis amostras de tamanho n = 2, com 
reposição, da população (1, 3, 5, 5, 7). Obtemos 5º = 25 amostras. Como já salientamos em 
seções anteriores, ao escolher uma amostra de uma população, estamos na realidade gerando 
valores de uma v.a. com determinada distribuição de probabilidades, supostamente conhecida. 
No exemplo, podemos pensar na v.a. X, assumindo os valores x, = 1,x,=3,X,)=5,X,= 5, X,= 7, 
com probabilidades todas iguais a 0,2. Portanto, para escolher uma amostra de tamanho n = 2, 
basta gerar dois valores dessa distribuição, como aprendemos no Capítulo 9. 

Os programas Excel, SPlus, Minitab e R têm comandos apropriados para gerar amostras de 
uma população especificada. 


Exemplo 10.15 O Excel usa a opção Amostragem, dentro de “Análise de Dados” do menu 
“Ferramentas”. Na coluna G do quadro do Exemplo 9.5, temos uma amostra aleatória simples 
(com reposição), de tamanho n = 5 da população P = (1, 2, ..., 10), que está na coluna F. 


Exemplo 10.16 O R e o SPlus usam o comando sample(x,n) para gerar uma amostra sem reposição 
de tamanho n do conjunto x e o comando sample(x,n,replace=T) para gerar uma amostra com 
reposição. O Quadro 10.1 mostra como obter amostras de tamanho n = 7 do conjunto x = (1, 2, 
3, ..., 15), sem e com reposição. 


Quadro 10.1 Geração de amostras. R e SPlus. 


>x<-c(1,2,3,4,5,6, 7,8,9, 10, 11, 12, 13, 14, 15) 
> 
> 
> sample (x, 7) 
[1]67423105 
> 
> 
> sample (x, 7, replace=T) 
[1] 12141110 15411 


Exemplo 10.17 O Minitab usa os comandos Sample e Replace para obter amostras. Temos, no 
Quadro 10.2, amostras de tamanho n = 5 obtidas do conjunto (1, 2, ..., 10) (na coluna C1). Na 
coluna C2 temos uma amostra sem reposição e na coluna C3 uma amostra com reposição. 


Quadro 10.2 Geração de amostras. Minitab. 


C1 C2 C3 
11108 
2213 
3388 MTB > Sample 5 C1 C2. 
442 6MTB > 


5574MTB > Sample 5 C1 C3; 
6 6 SUBC> Replace. 
77MTB> 


10.13 Problemas Suplementares 


21. Uma v.a. X tem distribuição normal com média 10 e desvio padrão 4. Aos participantes de um jogo é permitido observar uma 
amostra de qualquer tamanho e calcular a média amostral. Ganha um prêmio aquele cuja média amostral for maior que 12. 
(a) Se um participante escolher uma amostra de tamanho 16, qual é a probabilidade de ele ganhar um prêmio? 


(b) Escolha um tamanho de amostra diferente de 16 para participar do jogo. Qual é a probabilidade de você ganhar um prêmio? 
(c) Baseado nos resultados acima, qual o melhor tamanho de amostra para participar do jogo? 
22. Se uma amostra com 36 observações for tomada de uma população, qual deve ser o tamanho de uma outra amostra para que o 
desvio padrão dessa amostra seja 2/3 do desvio padrão da média da primeira? 


23. Definimos a variável e = X - H como sendo o erro amostral de média. Suponha que a variância dos salários de uma certa 


região seja 400 reais”. 


(a) Determine a média e a variância de e. 
(b) Que proporção das amostras de tamanho 25 terão erro amostral absoluto maior do que 2 reais? 
(c) E qual a proporção das amostras de tamanho 100? 


(d) Nesse último caso, qual o valor de d, tal que P(lel > d) = 1%? 
(e) Qual deve ser o tamanho da amostra para que 95% dos erros amostrais absolutos sejam inferiores a um real? 


24. A distribuição dos comprimentos dos elos da corrente de bicicleta é normal, com média 2 cm e variância 0,01 cm?. Para que 
uma corrente se ajuste à bicicleta, deve ter comprimento total entre 58 e 61 cm. 

(a) Qual é a probabilidade de uma corrente com 30 elos não se ajustar à bicicleta? 

(b) E para uma corrente com 29 elos? 
Observação. suponha que os elos sejam selecionados ao acaso para compor a corrente, de modo que se tenha independência. 
25. Cada seção usada para a construção de um oleoduto tem um comprimento médio de 5 m e desvio padrão de 20 cm. O 
comprimento total do oleoduto será de 8 km. 

(a) Se a firma construtora do oleoduto encomendar 1.600 seções, qual é a probabilidade de ela ter de comprar mais do que uma 

seção adicional (isto é, de as 1.600 seções somarem menos do que 7.995 m)? 

(b) Qual é a probabilidade do uso exato de 1.599 seções, isto é, a soma das 1.599 seções estar entre 8.000 m e 8.005 m? 
26. Um professor dá um teste rápido, constante de 20 questões do tipo certo-errado. Para testar a hipótese de o estudante estar 
adivinhando a resposta, ele adota a seguinte regra de decisão: “Se 13 ou mais questões estiverem corretas, ele não está 
adivinhando”. Qual é a probabilidade de rejeitarmos a hipótese, sendo que na realidade ela é verdadeira? 
27. Um distribuidor de sementes determina, por meio de testes, que 5% das sementes não germinam. Ele vende pacotes com 200 
sementes com garantia de 90% de germinação. Qual é a probabilidade de que um pacote não satisfaça à garantia? 
28. Uma empresa fabrica cilindros com 50 mm de diâmetro, sendo o desvio padrão 2,5 mm. Os diâmetros de uma amostra de 
quatro cilindros são medidos a cada hora. A média da amostra é usada para decidir se o processo de fabricação está operando 
satisfatoriamente. Aplica-se a seguinte regra de decisão: “Se o diâmetro médio de amostra de quatro cilindros for maior ou igual a 
53,7 mm, ou menor ou igual a 46,3 mm, deve-se parar o processo. Se o diâmetro médio estiver entre 46,3 e 53,7 mm, o processo 
continua”. 

(a) Qual é a probabilidade de se parar o processo se a média dos diâmetros permanecer em 50 mm? 

(b) Qual é a probabilidade de o processo continuar se a média dos diâmetros se deslocar para 53,7 mm? 
29. O CD-Veículos traz os preços de 30 carros nacionais e importados, extraídos da população de todos os carros vendidos no 
mercado. Supondo que o desvio padrão dessa amostra seja um bom representante do verdadeiro desvio padrão da população, qual 
será o tamanho de uma outra amostra a ser escolhida, de modo que, com probabilidade 90%, a média amostral difira da 
verdadeira média de menos de 0,02? 
30. Tabela de Números Aleatórios. Para sortear AAS, costuma-se usar tabelas de números aleatórios, que são coleções de dígitos 
construídos aleatoriamente e que simulam o processo de sorteio. Na Tabela VII, apresentamos um pequeno conjunto de números 
aleatórios. Podem ser usados do seguinte modo: se quisermos selecionar dez nomes de uma lista de 90 pessoas, devemos começar 
numerando-os 01, 02, ..., 90. Em seguida, escolhemos duas colunas, digamos as duas primeiras, e tomamos os dez primeiros 
números; no caso, serão: 61, 94, 50, 51, 25, 63, 12, 38, 22, 07, 61. 
Observe que o 94 foi eliminado, pois não existe esse número na população, e o 61 deverá aparecer repetido. Para outras 
explicações e tabelas maiores, consultar Pereira e Bussab (1974). 
31. Como você usaria uma tabela (ou um gerador) de números aleatórios para sortear uma amostra nas seguintes situações: 

(a) 5 alunos de sua classe; 

(b) 10 alunos de sua escola; 

(c) 15 domicílios de seu bairro; 

(d) 20 ações negociadas na Bolsa de São Paulo; 

(e) 5 números de uma população cujos elementos são numerados de 1 a 115. Existe algum modo de “apressar” o sorteio? 

(f) 5 números de uma população de 115 nomes, cujos números vão de 612 a 726; 

(9) 5 números de uma população de 115 nomes, cuja numeração não é sequencial, mas está compreendida entre os números 

300 e 599. 


32. Distribuição amostral da diferença de duas médias. Consideremos duas populações X com parâmetros |, e 02, e Y com 


parâmetros p? e 02. Sorteiam-se duas amostras independentes: a da primeira população de tamanho n e a da segunda de 
tamanho m. Calculam-se as médias amostrais X e Y. 


(a) Qual a distribuição amostral de X? E de Y? 

(b) Defina D = X — Y. O que você entende por distribuição amostral de D? 

(c) Calcule E(D) e Var(D). 

(d) Como você acha que será a distribuição de D? Por quê? 
33. A distribuição dos salários (em salários mínimos) de operários do sexo masculino de uma grande fábrica é N(5,4; 1,69), e a de 
operários do sexo feminino é N(5,4; 2,25). 
Sorteiam-se duas amostras, uma com 16 homens e outra com 16 mulheres. Se D for a diferença entre o salário médio dos homens 
e das mulheres: 


(a) Calcule P(|D| > 0,5). 
(b) Qual o valor de d tal que P(|D| > d) = 0,05? 


(c) Que tamanho comum deveriam ter ambas as amostras para que P(|D| > 0,4) = 0,05? 
34. Numa escola 4, os alunos submetidos a um teste obtiveram média 70, com desvio padrão 10. Em outra escola B, os alunos 
submetidos ao mesmo teste obtiveram média 65 e desvio padrão 15. Se colhermos na escola A uma amostra de 36 alunos e na B, 
uma de 49 alunos, qual é a probabilidade de que a diferença entre as médias seja superior a 6 unidades? 
35. Distribuição amostral da diferença de duas proporções. Usando os resultados do Problema 32, qual seria a distribuição de p; 


- Do», a diferença entre as proporções de amostras independentes retiradas de populações com parâmetros p, e p5? 


36. Considere a população P = (1,3, 5, 5, 7). Retire amostras de tamanho n = 2, sem reposição e construa a distribuição 
amostral de X = (X4 + X5)/2. Obtenha E(X) e Var(X)e verifique (10.9). 


37. Obtenha a densidade de M, dada por (10.10), para o caso de uma amostra de uma distribuição uniforme no intervalo (0, 6). 


38. Suponha que temos a população X — N (167; 25). Gere 100 amostras de tamanho 5 dessa população, usando algum programa 
de geração de valores de uma distribuição normal, como o Excel ou Minitab. 
(a) Esboce a distribuição amostral de X (histograma) e calcule as principais medidas-resumo; faça box plots e ramos-e-folhas. 


(b) Mesma questão para md = mediana da amostra. 
(c) Compare as duas distribuições, ressaltando as principais diferenças. 
(d) Estude a distribuição da estatística “variância da amostra”. 


39. Suponha uma população P = (1, 2,..., Nj ea v.a. X definida sobre P. Então, T=51X, é chamado total populacional. A 
média populacional é | = T/N e a variância populacional é 0º 52 (x,- ny /N . Considere uma AAS de tamanho n extraída de 


Pe X a média amostral. Considere o estimador T"= NX. Mostre que E(T) = Te Var(T) = N20?/n. 
40. Suponha que queiramos retirar uma amostra de uma distribuição de Bernoulli com parâmetro p. Escolhidos k dados x4, x», ..., 


Xk temos que —x, = b; x;'k é um estimador de p. Então um estimador natural da variância O 2 = p(1 - p) da população é x(1 - 
xy). Como ficaria o algoritmo descrito no CM-4 para essa situação? 


10.14 Complementos Metodológicos 


1. Amostras sem reposição de populações finitas. Suponha uma população com N elementos. Vimos que se extrairmos uma 
amostra de tamanho n, com reposição, e calcularmos a média amostral X, então E(X) =HeVa(XM)-o 2, onde He O? são a 


média e a variância da população, respectivamente. No entanto, se a amostragem for feita sem reposição, então E(X) =H 
continua a valer, mas 


Var(X)= CND". (10.9) 


O fator (N — n)/(N — 1) é chamado fator de correção para populações finitas. Note que se n for muito menor que N, então 
esse fator é aproximadamente igual a um, e amostras com ou sem reposição são praticamente equivalentes. 


Considere, agora, uma população P = (1, 3,5, 5, 7), logo N = 5. Retire amostras de tamanho n = 2, sem reposição, e 


construa a distribuição amostral de X = (X, + X,)/2. Obtenha E(X) e Var(X) e verifique que esta é dada pela fórmula acima. 


2. Planos probabilísticos. Existem vários planos probabilísticos que são utilizados em situações práticas. Vamos descrever 
brevemente alguns deles. 
(a) Amostragem Aleatória Simples (AAS). Nesse plano as n unidades que compõem a amostra são selecionadas de tal forma 
que todas as possíveis amostras têm a mesma probabilidade de serem escolhidas. Podemos ter AAS com e sem reposição. No 
Exemplo 10.7, cada amostra com reposição tem probabilidade 1/25 de ser escolhida. 


(b) Amostragem Aleatória Estratificada. Nesse procedimento, a população é dividida em subpopulações ou estratos, 
usualmente de acordo com os valores (ou categorias) de uma variável, e depois AAS é utilizada na seleção de uma amostra de 


cada estrato. Por exemplo, considere uma população de N = 10 estudantes, para os quais definimos as variáveis renda familiar 
(X,) e classe social (x), categorizada como A, BouC. Então, P = (1,2, ...,10J e suponha que a matriz de dados seja 


D 10 8 1562271631 
Bescarcara 


Podemos considerar três estratos, determinados pela variável X,: 
P=p56,P,= (169,10 PDA. 


Um dos objetivos da estratificação é homogeneizar a variância dentro de cada estrato, relativamente à principal variável de 
interesse. 

(c) Amostragem Aleatória por Conglomerados. Como no item (b), a população é dividida em grupos (subpopulações) distintos, 
chamados conglomerados. Por exemplo, podemos dividir uma cidade em bairros ou quadras. Usamos AAS para selecionar 
uma amostra de conglomerados e depois todos os indivíduos dos conglomerados selecionados são analisados. 
(d) Amostragem em Dois Estágios. A população é dividida em grupos, como em (c). Num primeiro estágio, por meio de AAS, 
selecionamos algumas subpopulações. Num segundo estágio, usando novamente AAS, retiramos amostras das subpopulações 
selecionadas na primeiro estágio. 
(e) Amostragem Sistemática. Nesse plano, supõe-se que temos uma listagem das unidades populacionais. Para k fixado, 
sorteamos um elemento entre os k primeiros da listagem. Depois observamos, sistematicamente, indivíduos separados por k 
unidades. Por exemplo, se k = 10 e sorteamos o oitavo elemento, observamos depois o décimo oitavo, vigésimo oitavo etc. 

3. Distribuição do máximo de uma amostra. Considere M o máximo de uma AAS X,, ..., X, escolhida de uma população com 


densidade f(x) e f.d.a. F(x). Seja Fy(m) a f.d.a. de M. Então, Fy(m) = P(M S m). Agora, o evento (M < m) é equivalente ao 


evento (X, < m, para todo 1 < i < n). Como as v.a. X, são independentes, teremos 
Fam=P(M<m=P(X <m,..,X <m=P(X<m)..P(X,<m)=[F(m)P. 


Portanto, a densidade de M é dada por 


fm) = Fm) = nLF(m)]" -!f(m). (10.10) 
4. Tamanho de uma amostra. Na prática, não conhecemos a distribuição de v.a. X e retiramos uma amostra a fim de estimar 
algum parâmetro dessa distribuição. Suponha, agora, que nosso interesse esteja na média |1 = E(X). Para estimá-la, colhemos 
uma amostra X4, X5, ..., Xn de X. Logo, as v.a. X; são independentes, cada uma delas tem a mesma distribuição que X e E(X;) = 


h, Wi=1,..,n. Para estimar H consideramos a média amostral X. 

Um problema que se apresenta é determinar o tamanho da amostra a colher. Isso pode ser feito usando a TLC, como vimos na 
Seção 10.11. 

Agora, vamos ver um procedimento diferente, também baseado no TLC, mas que envolve uma regra de parada para determinar 
o número de dados a colher. Esse procedimento foi sugerido por Ross (1997). Pelo TLC podemos escrever 


P(|X -ul>co/vn )= P(|Z|>c)=2[1-O(c)), (10.11) 


para qualquer constante c > 0, em que Z = N(0, 1) e D(:) denota a f.d.a. de Z. Por exemplo, se c = 1,96, a probabilidade acima é 
0,05. 
Suponha que, em vez de colher uma pequena amostra piloto para estimar O, tenhamos informação suficiente para escolher um 
valor aceitável, digamos d, para o desvio padrão de X, que é dado por ch. 
Por (10.11), podemos escrever, por exemplo, 

P(IX - pn] < 1,96d) = 0,95. 
Segue-se que podemos amostrar sequencialmente de X até que s/n <d, em que calculamos S com os valores até então 
escolhidos. 


O seguinte algoritmo pode, então, ser adotado: 
(1) Escolha um valor aceitável d para oh : 


(2) Gere pelo menos 30 dados (para obter uma estimativa razoável de 0). 
(3) Continue a gerar dados, parando quando, com n dados, s/n <d, com 


s=5(x-*) /n-1). 


(4) Estime | por X=5"X,/n. 
Esse método implica podermos calcular X e S? recursivamente. Isso pode ser feito por meio das seguintes fórmulas, facilmente 


verificáveis: 


= j 4 E: 
B=55%, S=5>(4-2) jz2, 
del 


E = Xy-d 
E E hs 
Xn=X, + FETO 
s=[1-Ls2e(j+X E) 
o RO (ia E). 
Suponha x, = 3,x) = 5,x3 = 2,x4 = 6, xs = 4. Então, usando as fórmulas acima, obtenha, recursivamente, X, S2, i = 1,2,3, 
4,5. 


Capítulo 11 


Estimação 


11.1 Primeiras Ideias 


Vimos que a Inferência Estatística tem por objetivo fazer generalizações sobre uma população, 
com base nos dados de uma amostra. Salientamos que dois problemas básicos nesse processo 
são: 

(a) estimação de parâmetros; e 

(b) teste de hipóteses sobre parâmetros. 

Lembremos que parâmetros são funções de valores populacionais, enquanto estatísticas são 
funções de valores amostrais. 

O problema do teste de hipóteses sobre parâmetros de uma população será tratado no Capítulo 
12. Neste capítulo, iremos discutir as ideias básicas sobre estimação. Para ilustrar, consideremos 
o exemplo seguinte. 


Exemplo 11.1 Uma amostra de n = 500 pessoas de uma cidade é escolhida, e a cada pessoa da 
amostra é feita uma pergunta a respeito de um problema municipal, para o qual foi apresentada 
uma solução pela prefeitura. A resposta à pergunta poderá ser SIM (favorável à solução) ou 
NÃO (contrária à solução). Deseja-se estimar a proporção de pessoas na cidade favoráveis à 
solução apresentada. 

Se 300 pessoas responderam SIM à pergunta, então uma estimativa natural para essa 
proporção seria 300/500 ou 60%. Nossa resposta é baseada na suposição de que a amostra é 
representativa da população. Sabemos, também, que outra amostra poderia levar a outra 
estimativa. Conhecer as propriedades desses estimadores é um dos propósitos mais importantes 
da Inferência Estatística. Vejamos o que pode ser feito nesse caso particular. 

Definamos as v.a. X,, ..., X,, tais que: 


X- l, sea i-Bsima pessoa na amostra responder SIM, 
'“ lo, sea i-Bsima pessoa na amostra responder NV O, 


e seja p = P (sucesso), em que sucesso significa resposta SIM à questão formulada. 
Portanto, se X=5".,X, sabemos que Y, tem distribuição binomial com parâmetros ne p,e o 


pa 


problema consiste em estimar p. É claro que Y, representa o número de pessoas na amostra que 
responderam SIM; portanto, um possível estimador de p é 


b h, + X, = número de SIM ; (iii) 
n n número de indivíduos 


Então, se Y, = k, isto é, observarmos o valor k da variável Y,, obteremos » = k/n como uma 
estimativa de p. Observe que à, dado por (11.1), é uma v.a., ao passo que kn é um número, ou 


seja, um valor da v.a. No exemplo acima, uma estimativa é 0,6 ou 60%. 
O estimador À teve sua distribuição amostral estudada na Seção 10.9. De lá podemos concluir 
que ) tem distribuição aproximadamente normal, com parâmetros: 


E(p) =p, (11.2) 
Var(p) = p(1 - p)/n. (11.3) 


Esses resultados nos ajudam a avaliar as qualidades desse estimador. Por exemplo, o resultado 
(11.2) indica que o estimador », em média, “acerta” p. Dizemos que p é um estimador não 
viesado (ou não viciado) de p. Ou ainda, o resultado (11.3) indica que para amostras grandes, a 
diferença entre p e p tende a ser pequena, pois para n > 00, Var(p) > 0. Nesse caso, dizemos que 
» é um estimador consistente de p. Observe que essas propriedades são válidas para o estimador 
no conjunto de todas as amostras que poderiam ser extraídas da população. Para uma particular 
amostra, ) pode estar distante de p. 

Em algumas situações, podemos ter mais de um estimador para um mesmo parâmetro, e 
desejamos saber qual deles é “melhor”. O julgamento pode ser feito analisando as propriedades 
desses estimadores. Vejamos um exemplo. 


Exemplo 11.2 Desejamos comprar um rifle e, após algumas seleções, restaram quatro alternativas, 
que chamaremos de rifles A, B, Ce D. Foi feito um teste com cada rifle, que consistiu em fixá-lo 
num cavalete, mirar o centro de um alvo e disparar 15 tiros. Os resultados estão ilustrados na 
Figura 11.1. 

Para analisar qual a melhor arma, podemos fixar critérios. Por exemplo, segundo o critério de 
“em média acertar o alvo”, escolheríamos as armas A e C. Segundo o critério de “não ser muito 
dispersivo” (variância pequena), a escolha recairia nas armas C e D. A arma C é aquela que 
reúne as duas propriedades e, segundo esses critérios, seria a melhor arma. Mas, se outro critério 
fosse introduzido (por exemplo, menor preço), talvez não fosse a arma escolhida. Muitas vezes, a 
solução deve ser um compromisso entre as propriedades. 

Esse exemplo também nos permite introduzir os conceitos de acurácia e precisão. A acurácia 
mede a proximidade de cada observação do valor alvo que se procura atingir. A precisão mede a 
proximidade de cada observação da média de todas as observações. 


Figura 11.1 Resultados de 15 tiros dados por 4 rifles. 


(A) (B) 


(Cc) (D) 


Desse modo, podemos descrever cada arma da seguinte maneira: 

Arma A: não viesada, pouco acurada e baixa precisão. 

Arma B: viesada, pouco acurada e baixa precisão. 

Arma C: não viesada, muito acurada e boa precisão. 

Arma D: viesada, pouco acurada e alta precisão. 

Do exposto acima, notamos a importância de se definir propriedades desejáveis para 
estimadores. Trataremos desse assunto na próxima seção. Outro problema que aparece em 
inferência é como obter um estimador de determinado parâmetro. Nem sempre temos uma 
sugestão para um estimador, como no caso da proporção, no Exemplo 11.1. Nas Seções 11.3, 
11.4e 11.5, trataremos de três desses métodos. 


11.2 Propriedades de Estimadores 


Inicialmente, vejamos a questão da estimação de um modo mais geral. Consideremos uma 
amostra (X,, X,, ..., X,) de uma v.a. que descreve uma característica de interesse de uma 
população. Seja 6 um parâmetro que desejamos estimar, por exemplo, a média p = E(X) ou a 
variância 0? = Var(X). 

Definição. Um estimador T do parâmetro 6 é qualquer função das observações da amostra, ou seja, 
T=9(X, ..., X,). 

Notemos que, segundo essa definição, um estimador é o que chamamos antes de estatística, 
porém associando-o a um parâmetro populacional. 

O problema da estimação é, então, determinar uma função T = g(X, X», ..., X,) que seja 
“próxima” de 8, segundo algum critério. O primeiro critério que iremos abordar é dado a seguir. 


Definição. O estimador T é não viesado para 8 se 
E(T) = 0, (11.4) 


para todo 6. 
Se (11.4) não valer T' diz-se viesado e a diferença V(T) = E(T) - O é chamado o viés de T. 
Notemos que a esperança de T em (11.4) é calculada sobre a distribuição amostral de T, como 
tratada no capítulo anterior. 
Definição. Estimativa é o valor assumido pelo estimador em uma particular amostra. 
Assim, no Exemplo 11.1, » é um estimador de p, enquanto 60% é uma estimativa de p. 
Exemplo 11.3 Vimos que a média amostral X é um estimador não viesado de p = E(X), colhida uma 
amostra (X,, ..., X,) da v.a. X. Do mesmo modo, como vimos na Seção 10.9, a proporção amostral 
» é um estimador não viesado da proporção p de indivíduos de uma população que tem certa 
característica comum. 


Exemplo 11.4 Considere uma população com N elementos e a variância populacional 
oi = palm, -n), (11.5) 


I é e : , j 
em que u=-5" x, é a média populacional. Um possível estimador para 02, baseado numa AAS 
N 


dal d 


de tamanho n extraída dessa população, é 


&=15(x,-X). (11.6) 


ss 
n ta] 


Mostremos que esse estimador é viesado. Pela fórmula (3.11), temos que 


logo 
e(ó:)=1 Se(x2)-E(X? ) 
Mas, pela definição de AAS e definição de variância de uma v.a., E(X?)) = Var(X) + [E(X))]? = 
o? + p?. Também, usando o Teorema 10.1, temos que E(X-? = Var(X-) + [E(X)] = Sp 


Segue-se que 
E(oº)=15(o:+1º)-[ Seus) 
ou seja, 
E(6º)=n(ot +ue))-S pec S cosf1-1) 
Finalmente, 
; -1 
e(oe)=( 22 CER. 
De (11.7) vemos que 6º é viesado para o? e o viés é dado por 
V=v(6:)=E(8)-o:=-S (11.8) 


Como esse viés é negativo, o estimador 6? em geral subestima o verdadeiro parâmetro 02. Por 
outro lado, por (11.8), o viés diminui com n, ou seja, formalmente, para n > 00, o viés de 6? 
tende a zero. Note também que o viés de 6? é uma função de o?. Uma estimativa do viés seria 
dada por 


ou seja, substituímos o valor desconhecido de o? por uma estimativa, como por exemplo 6º. 
É fácil ver que para obter um estimador não viesado de o? basta considerar 
(n/(n - 1)) 6º, pois de (11.7) segue-se que 


s(za o), 
n-1 
Logo, se definirmos 


Si= S(x-Z), (11.9) 


e; 


então E(S?) = o? e Sº? é um estimador não viesado para 02. Essa é a razão para se usar n - 1, em 
vez de n, como denominador da variância da amostra. No Capítulo 3, usamos sempre n como 
denominador, porque não havia preocupação em saber se estávamos trabalhando com uma 
população ou uma amostra. Daqui por diante, será feita essa distinção. 

Vimos que o estimador p é não viesado e tem variância que tende a zero, quando n > 00. Ver 
(11.2) e (11.3). Dizemos que p é consistente. Esse conceito de consistência é um pouco mais 
difícil de se definir. Vejamos um exemplo para motivar a definição que será dada. 


Considere a média X calculada para diversos tamanhos de amostras; obtemos, na realidade, 
uma sequência de estimadores ( X,, n = 1, 2,...;. A medida que n cresce, a distribuição de X, 


torna-se mais concentrada ao redor da verdadeira média pn. Veja, por exemplo, a Figura 10.4 do 
Capítulo 10. Dizemos que ( X,) é uma sequência consistente de estimadores de . 


Definição. Uma sequência (T,) de estimadores de um parâmetro O é consistente se, para todo e > 0, 
Pi|T,- 0|> e) > 0,n 5 00. (11.10) 


Não é muito difícil ver que essa condição está satisfeita para ( X,). Veja o Problema 33. 


Em vez de usar (11.10) para verificar se uma sequência de estimadores é consistente, podemos 
usar o seguinte resultado. 


Proposição. Uma sequência tT,) de estimadores de 0 é consistente se 


imE(T,)=0 (11.11) 


lim Var( T,)=0 (11.12) 


Se T, for não viesado, a primeira condição estará, obviamente, satisfeita. Usando esse 
resultado, vemos que p e X, são estimadores consistentes de p e |, respectivamente, nos 
Exemplos 11.1 e 11.3. 


Exemplo 11.5 Vimos que S2, dado por (11.9), é não viesado para 02. É possível demonstrar, no caso 
que X,, ..., X, são observações de uma distribuição N(y, o?), que 


Var(82)= 20 (11.13) 


Como E(S?) = 02, e lim, .. Var(S?)= 0, segue-se que Sº é um estimador consistente para 02. Dado o 
que foi dito acima, talvez fosse melhor escrever S2.. 


Exemplo 11.6 Vimos que E(5?) = (1 - 1/n), de modo que limE(6º)= o”. Também, de (11.6) e (11.13) 
e supondo que as observações são de uma distribuição normal N(y, 07), temos que 


Var(5º) (2) var(s?) =2"(20), (11.14) 


o que mostra que Var(5?) > 0, quando n > 00, logo 6º =? também é consistente para o”. 
De (11.14) obtemos, também, que 
Var(6?) < O -Var(8º) (11,15) 
Portanto, usando-se somente o critério de “ter menor variância”, 6º seria um “melhor” 
estimador de 0º. Mas observe que estamos nos referindo a amostras de uma distribuição normal. 
Vejamos agora um critério que nos permite escolher entre dois estimadores do mesmo 
parâmetro. 


Definição. Se Te T' são dois estimadores não viesados de um mesmo parâmetro 0, e ainda 
Var(T) < Var(T), (11.16) 


então T diz-se mais eficiente do que T”. 


Exemplo 11.7 Consideremos uma população normal X, com parâmetros p e o?. Queremos estimar a 
mediana dessa população. Por ser uma distribuição simétrica, sabemos que p = Md(X). 
Definindo como X a média e como md a mediana de uma amostra de tamanho n dessa 
população, qual dos dois estimadores é o melhor para estimar a mediana populacional? 

Pelo que vimos no capítulo anterior, 


X -N(u,6:/n). (11.17) 

Pode-se demonstrar que a distribuição da mediana amostral pode ser aproximada por uma 
normal, especificamente, 

md -N(Md(X),no?/2n). (11.18) 
Vemos, portanto, que os dois estimadores são não viesados, mas X é mais eficiente, pois 
Var(md)/Var(X)=m/2>1. 

Conclui-se que, para estimar a mediana dessa população, é preferível usar a média da amostra 
como estimador, o que contraria um pouco a nossa intuição. 

Para precisar o conceito de estimador acurado, discutido na seção anterior, vamos agora 
introduzir o conceito de erro quadrático médio. 

Chamemos de 

e=T-0, 
o erro amostral que cometemos ao estimar o parâmetro O da distribuição da v.a. X pelo 
estimador T = g(X,, ..., X,), baseado na amostra (X,,..., X,). 
Definição. Chama-se erro quadrático médio (EQM) do estimador T' ao valor 
EQM(T; 6)=E(e:)= E(T- 6). (11.19) 
De (11.19) temos 
EQM(T;9)=E(T - E(T)+ E(T)- 0) 
=E(T-E(7)) +2e[(7-e(7))(e(7)-0)]+ E(g(T)-0) 
-E(T-E(T)) + E(E(T)-0)", 
já que E(T) - O é uma constante e E(T - E(T)) = 0. Podemos, pois, escrever, 
EQM(T;8)= Var(T)+V2, (11.20) 


em que V= V(T) = E(T) - O indica, como vimos, o viés de T. A Figura 11.2 ilustra essas duas 
medidas, usando o caso das armas discutido no Exemplo 11.2. 

Vemos, portanto, que um estimador preciso tem variância pequena, mas pode ter EQM 
grande. 


Figura 11.2 Representação gráfica para o EQM. 


Problemas 


1. Obtenha a distribuição de p quando p = 0,2 en = 5. Depois calcule E(p) e Var(p). 
2. Encontre um limite superior para Var(p) quando n = 10, 25, 100 e 400. Faça o gráfico em cada caso. 


3. Suponha um experimento consistindo de n provas de Bernoulli, com probabilidade de sucesso p. Seja X o número de 
sucessos, e considere os estimadores 
q , 1, sea primeira prova resultar sucesso, 

(a) py = X/n; (b) Pa = 


Determine a esperança e a variância de cada estimador. Por que 5, não é um “bom” estimador? 


0, caso contrário. 


4. Verifique se 5, e p do Problema 3 são consistentes. 


5. Tem-se duas fórmulas distintas para estimar um parâmetro populacional 0. Para ajudar a escolher a melhor, simulou-se uma 
situação em que 8 = 100. Dessa população retiraram-se 1.000 amostras de dez unidades cada uma, e aplicaram-se ambas as 
fórmulas às dez unidades de cada amostra. Desse modo, obtêm-se 1.000 valores para a primeira fórmula t, e outros 1.000 


valores para a segunda fórmula t,, cujos estudos descritivos estão resumidos abaixo. Qual das duas fórmulas você acha mais 
conveniente para estimar 0. Por quê? 


Fórmula 2 


Fórmula 1 
t,= 102 t, = 100 
Var(t;)) = 5 Var(t,) = 10 
Mediana = 100 | Mediana = 100 
Moda = 98 Moda = 100 


11.3 Estimadores de Momentos 


Neste capítulo e em anteriores, temos usado certos estimadores de parâmetros populacionais, 
como a média e a variância, simplesmente tentando “imitar” na amostra o que acontece na 
população. Foi assim que construímos X, por exemplo. 

A média populacional é um caso particular daquilo que chamamos de momento. Na realidade, 
ela é o primeiro momento. Se X for uma v.a. contínua, com densidade f(x; 0, ..., 0,), dependendo 


de r parâmetros, então 
H = E(X) = foxf(e; 8,,-..,8,)de. (11.21) 


Essa média dependerá, genericamente, dos parâmetros desconhecidos 6, ..., 0,. Por exemplo, 
suponha que X tenha distribuição normal, com parâmetros p e 02. Aqui, 8, =hn,0,=0?er=2. 
Temos, nesse caso, que E(X) = q. 

Podemos, em geral, definir o k-ésimo momento de X por 


n=Elr)s| riso.) d=4% «os (11.22) 


Assim, para k = 2, obtemos o segundo momento 
E(X?)= [2 f(x 9,,:.,8, Jdx. 
No caso acima da normal, temos que E(X?) = Var(X) + [E(X)]? = o? + p?. Suponha, agora, que 
colhemos uma amostra de tamanho n da população (X,, ..., X,). Definimos o chamado k-ésimo 
momento amostral por 


m=>5Xt, k=12,. (11.23) 


Temos, portanto, que m=X em, =>" X2/n. 
Definição. Dizemos que Ô,, ..., Ô, são estimadores obtidos pelo método dos momentos se eles forem 
soluções das equações 
m,= Do k=1,2,...,r. (11.24) 
O procedimento consiste em substituir os momentos teóricos pelos respectivos momentos 
amostrais. 


Exemplo 11.8 Se X tem média | e variância 02, teremos as seguintes relações válidas para os dois 
primeiros momentos populacionais: 
E(X)=u, E(X?)=o?+p?, 


do que obtemos 
u=E(X), o!=E(X?)-E?(X). 


Temos, também, os dois primeiros momentos amostrais: 


m=->D X,=X 
na 
m=15.X2 


Os estimadores obtidos pelo método dos momentos serão 
TR =m = X, 


; L& pra 
64, =m -m? no p= Rs =62. 
dal 


Ou seja, obtemos os já mencionados estimadores X e 62. 

Na realidade, podemos ter, às vezes, mais de um estimador de momentos. Suponha, por 
exemplo, que a v.a. Y tenha uma distribuição de Poisson com parâmetro À > 0. Vimos que E(Y) = 
Var(Y) = À, de modo que À pode ser estimado por Y ou por 5" (£-7)'/nouseja, Ny =X ou Ny = 


6”. Veja o Problema 46. 


11.4 Estimadores de Mínimos Quadrados 


Um dos procedimentos mais usados para obter estimadores é aquele que se baseia no princípio 
dos mínimos quadrados, introduzido por Gauss em 1794, mas que primeiro apareceu com esse 
nome no apêndice do tratado de Legendre, Nouvelles Méthodes pour la Determination des 
Orbites des Comêtes, publicado em Paris em 1806. Gauss somente viria a publicar seus 
resultados em 1809, em Hamburgo. Ambos utilizaram o princípio em conexão com problemas de 
Astronomia e Física. 

Vejamos o procedimento por meio de um exemplo simples. 


Exemplo 11.9 Um engenheiro está estudando a resistência Y de uma fibra em função de seu 
diâmetro X e notou que as variáveis são aproximadamente proporcionais, isto é, elas obedecem à 
relação 


Ya 6X, (11.25) 


em que 8 é o coeficiente de proporcionalidade. Agora ele deseja estimar o parâmetro 0, baseado 
numa amostra de cinco unidades, que, submetidas a mensuração e testes, produziram os 
resultados: 

*. 12 5 17 20 5 E=18 

Y: 39 47 56 58 7,0, F=5,4. 

Inspecionando os resultados, conclui-se que ô = 3 parece ser um valor razoável. Como 
verificar a qualidade dessa estimativa? Podemos utilizar o modelo Y = 3X e ver como esse prevê 
os valores de Y, para os dados valores de X, e como são as discrepâncias entre os valores 
observados e os estimados pelo modelo. Essa análise está resumida na Tabela 11.1. 

Os valores da coluna (Y - 3X) medem a inadequação do modelo para cada observação da 
amostra, enquanto o valor 5; (4 -3X,/ =1,06 é uma tentativa de medir “o erro quadrático total da 
amostra”. Como em situações anteriores, elevou-se ao quadrado para evitar o problema do sinal. 
Quanto menor for o erro quadrático total, melhor será a estimativa. Isso nos sugere procurar a 
estimativa que torne mínima essa soma de quadrados. Matematicamente, o problema passa a ser 
o de encontrar o valor de O que minimize a função 


s(9)=>(%-0x,). (11.26) 


Tabela 11.1 Análise do modelo Y = 3X. 


X Y 3X 
1,2: ]:3,9] 3/6 
1,5 |47| 45 
1,7 |5,6| 5,1 
2,0 |5,8| 6,0 
2/6: 7,0: | “7,8 
Total 


O mínimo da função é obtido derivando-a em relação a 0, e igualando o resultado a zero (ver 
Morettin et al., 2005), o que resulta 


ds(0) & “28 Ea 
e => (6 -84,)(-2%,)=0. 
Resolvendo essa equação, obtemos 
sea 
do = 55 ya 


Pa é 
Usando os dados acima encontramos Ô mo = 2,94, que conduz a um valor mínimo para S(0) de 
0,94. Observe que esse valor é realmente menor do que o observado para 6 = 3, ou seja, 1,06. 
Como foi dito, não esperávamos uma relação perfeita entre as duas variáveis, já que o 
diâmetro da fibra não é o único responsável pela resistência; outros fatores não controlados 
afetam o resultado. Desse modo, duas amostras obtidas do mesmo diâmetro X não teriam 


obrigatoriamente que apresentar o mesmo resultado Y, mas valores em torno de um valor 
esperado 6X. 

Em outras palavras, estamos supondo que, para um dado valor da variável explicativa X, os 
valores da variável resposta Y seguem uma distribuição de probabilidade fy), centrada em 0X. 
Isso equivale a afirmar que, para cada X, o desvio e = Y - 0X segue uma distribuição centrada no 
zero. Para melhor entendimento dessa proposição, veja o Capítulo 16. Podemos, então, escrever 

E(Y | x) = 0x, para todo valor x. 

É comum supor que £ tem a mesma distribuição, para todo valor x da variável explicativa X. 

Desse modo, é comum escrever 

Y=Ox+e, 
com € seguindo a distribuição fe(.), com média zero. Como ilustração, poderíamos supor que € - 
N(0, o?), para todo x. Quanto menor for a variância o?, melhor será a “previsão” de Y como 
função de x. Assim, parece razoável escolher 8 que torna mínima a soma dos quadrados do erros: 


Se (x -0x). 
dal o! 


O modelo acima pode ser generalizado, de modo a envolver outras funções do parâmetro 6, 
resultando no modelo 


Y=g(X;0)+ e, (11.27) 
e devemos procurar o valor de O que minimize a função 


s(9)=5 2=5 (-g(x;8)), (11.28) 


1= i=1 


para uma amostra (X,, Y,), ..., (X, Y,) das variáveis X e Y. A solução 6 é chamada de estimador 
de mínimos quadrados (EMQ) de 6. 

Nos Capítulos 15 e 16, voltaremos a esse tópico e trataremos com mais detalhes os chamados 
modelos lineares. 


6. Estamos estudando o modelo y, = q + £,, para o qual uma amostra de cinco elementos produziu os seguintes valores para y,: 3, 
5,6, 8, 16. 
(a) Calcule os valores de S(u)= ZA X— u),para p=6,7,8,9, 10, e faça o gráfico de S(y) em relação a pn. Qual o valor de q 
que parece tornar mínimo S(u)? 
(b) Derivando S(n) em relação a ny, e igualando o resultado a zero, você encontrará o EMQ de p. Usando os dados acima, 
encontre a estimativa para q e compare com o resultado do item anterior. 
7. Os dados abaixo referem-se ao índice de inflação (y,) de 1967 a 1979. 


Ano (t) 1967 | 1969 | 1971 | 1973 | 1975 | 1977 | 1979 
Inflação (y) | 128 | 192 | 277 | 373 | 613 | 1.236 | 2.639 


(b) Considere ajustar o modelo y, = a + Bt + e, aos dados. Encontre as estimativas de mínimos quadrados de a e fp. 
(c) Qual seria a inflação em 1981? 
(d) Você teria alguma restrição em adotar o modelo linear nesse caso? 
8. No Problema 7, determinamos os estimadores de mínimos quadrados para o modelo 
y:= ft) Fu, no qual ft) = o + Bt. Suponha agora que 


fO)=a+PBx,t=1,...,n, 


(a) Faça o gráfico de y, contra t. 


ou seja, temos n valores fixos x1, ..., x, de uma variável fixa (não aleatória) x. Obtenha os EMQ de q e B para esse modelo. 
9. Aplique os resultados do Problema 8 para os dados a seguir: 


11.5 Estimadores de Máxima Verossimilhança 


O Novo Dicionário Aurélio da Língua Portuguesa (22 edição, 1986) define verossímil (ou 
verossimilhante) aquilo que é semelhante à verdade, provável, e verossimilhança (ou 
verossimilidade, ou ainda verossimilitude), à qualidade ou caráter de verossímil. O que seria uma 
amostra verossímil? Seria uma amostra que fornecesse a melhor informação possível sobre um 
parâmetro de interesse da população, desconhecido, e que desejamos estimar. 

O princípio da verossimilhança afirma que devemos escolher aquele valor do parâmetro 
desconhecido que maximiza a probabilidade de obter a amostra particular observada, ou seja, O 
valor que torna aquela amostra a “mais provável”. O uso desse princípio conduz a um método de 
estimação pelo qual se obtêm os chamados estimadores de máxima verossimilhança que, em 
geral, têm propriedades muito boas. Esse princípio foi enunciado por Fisher pela primeira vez em 
1912 e, em 1922, deu-lhe forma mais completa, introduzindo a expressão “likelihood” 
(verossimilhança). Veja Fisher (1935) para mais detalhes. Vamos começar com um exemplo. 


Exemplo 11.10 Suponha que temos n provas de Bernoulli com P (sucesso) =p, 0<p<1 eX= 
número de sucessos. Devemos tomar como estimador aquele valor de p que torna a amostra 
observada a mais provável de ocorrer. 

Suponha, por exemplo, que n = 3 e obtemos dois sucessos e um fracasso. A função de 
verossimilhança é 

L(p) = P(2 sucessos e 1 fracasso) = p(1 - p). 
Maximizando essa função em relação a p, obtemos 
L'(p)=2p(1-p)-p*=0> p(2-3p)=0, 

do que seguem p = 0 ou p = 2/3. É fácil ver que o ponto máximo é p = 2/3, que é o estimador de 
máxima verossimilhança (EMV) de p. 

De modo geral, o EMV do parâmetro p de uma distribuição binomial é 


Pa =, (11.29) 


que é o estimador usado anteriormente no Exemplo 11.1. 
Para chegar a (11.29), observe que a função de verossimilhança nesse caso é 
L(p)= ps(1- pp)", 
que é a probabilidade de se obter x sucessos e n - x fracassos. O máximo dessa função ocorre no 
mesmo ponto que+(p)=log, L(p). Denotando o logaritmo natural simplesmente por log, temos 
t(p)=xlog p+(n-x)log(1- p). 
Derivando e igualando a zero obtemos P,,y = x/n. 


O procedimento, pois, é obter a função de verossimilhança, que depende dos parâmetros 
desconhecidos e dos valores amostrais, e depois maximizar essa função ou o logaritmo dela, o 


que pode ser mais conveniente em determinadas situações. Chamando de L(0; X,, ..., X,) a função 
de verossimilhança, a log-verossimilhança será L(0; X,, ..., X,) = log, L(0; X,, ..., X,). 

No caso de variáveis contínuas, a função de verossimilhança é definida da seguinte maneira. 
Suponha que a v.a. X tenha densidade f(x; 0), onde destacamos a dependência do parâmetro 0 
desconhecido. Retiramos uma amostra de X, de tamanho n, (X,, ..., X,), e sejam (x,, ..., x,) OS 
valores efetivamente observados. 

Definição. A função de verossimilhança é definida por 


L(0;x,.,x,)= 1 (x,;0).../ (x,:0), (11.30) 


que deve ser encarada como uma função de 6. O estimador de máxima verossimilhança de 0 é 
o valor 0 ,, que maximiza L(0; x,, ..., X,). 

Se indicarmos por x = (x, ..., X,)) o vetor contendo a amostra, é costume denotar a 
verossimilhança por L(0|x) e a log-verossimilhança por £(0]x). O parâmetro 8 pode ser um vetor, 
como no caso de querermos estimar a média q e a variância o? de uma normal. Nesse caso, 8 = 
(n, 0º). 

Exemplo 11.11 Suponha que a v.a. X tenha distribuição exponencial, com parâmetro q > 0, 
desconhecido, e queremos obter o EMV desse parâmetro. A densidade de X é dada por (7.26): 
f(xo)= Let, sexz0 
0, sex<0. 
Então, a verossimilhança é dada por 
L(a/x)=(W/0)' edi 
e a log-verossimilhança fica 
t(a/x)=-n log a-Sx/a. 


dial 


Derivando e igualando a zero obtemos que o EMV de a é 
E Zu (11.31) 


que nada mais é do que a média amostral. Lembremos que na distribuição exponencial 
E(X) = o, e portanto o estimador obtido é o esperado pelo senso comum. 
No caso discreto, a função de verossimilhança pode ser escrita na forma 


L(6;x,. x, )=P(X,=x/8) ... P(X, = x,/8). 


Veja o Problema 37 para o caso de termos mais de um parâmetro. 


10. Na função de verossimilhança L(p) da binomial, suponha que n = 5 e x = 3. Construa o gráfico da função para os possíveis 
valores de p = 1/5, 2/5, 3/5, 4/5, e verifique que o máximo ocorre realmente para p = 3/5. 
11. Observa-se uma sequência de ensaios de Bernoulli, independentes, com parâmetro p, até a ocorrência do primeiro sucesso. Se 
X indicar o número de ensaios necessários: 
(a) Mostre que P(X = x) = (1 - p)*” Ip (distribuição geométrica). 
(b) Repetiu-se esse experimento n vezes e, em cada um deles, o número de ensaios necessários foram xy, x», ..., Xp: Encontre o 
EMV para p. 
(c) Usando uma moeda, repetiu-se esse experimento 5 vezes, e o número de ensaios necessários até a ocorrência da primeira 
coroa foi 2, 3, 1, 4, 1, respectivamente. Qual a estimativa de MV para p = probabilidade de ocorrência de coroa nessa moeda? 


Existiria outra maneira de estimar p? 
12. Suponha que X seja uma v.a. com distribuição normal, com média p e variância 1. Obtenha o EMV de |, para uma amostra 
de tamanho n, (x4, ..., Xn). 


13. Considere Y uma v.a. com distribuição de Poisson, com parâmetro À > 0. Obtenha a EMV de À, baseado numa amostra de 
tamanho n. 


11.6 Intervalos de Confiança 


Até agora, todos os estimadores apresentados foram pontuais, isto é, especificam um único 
valor para o estimador. Esse procedimento não permite julgar qual a possível magnitude do erro 
que estamos cometendo. Daí, surge a ideia de construir os intervalos de confiança, que são 
baseados na distribuição amostral do estimador pontual. 


Exemplo 11.12 Suponha que queiramos estimar a média q de uma população qualquer, e para tanto 
usamos a média X de uma amostra de tamanho n. Do TLC, 


e=(X-u)-N(0,0;), (11.32) 


com Var(X) = 0% = 0?/n. Daqui podemos determinar qual a probabilidade de cometermos erros 
de determinadas magnitudes. Por exemplo, 
P(le|<1,960;)=0,95 
ou 
P(|X -u|<1,960,)=0,95, 
que é equivalente a 
P(-1,960, <X -u <1,960,)=0,95, 
e, finalmente, 


P(X-1,960, <u<X+1,960, )=0,95. (11.33) 


Convém lembrar que q não é uma variável aleatória e sim, um parâmetro, e a Fórmula (11.33) 
deve ser interpretada da seguinte maneira: se pudéssemos construir uma quantidade grande de 
intervalos (aleatórios!) da forma ] Xe. 1,960, X + 1,960], todos baseados em amostras de 
tamanho n, 95% deles conteriam o parâmetro pn. Veja a Figura 11.3. Dizemos que y = 0,95 é o 
coeficiente de confiança. Nessa figura, estão esquematizados o funcionamento e o significado de 
um intervalo de confiança (IC) para |, com y = 0,95 e o? conhecido. 


Figura 11.3 Significado de um IC para |, com Y = 0,95 e Oº conhecido. 


Escolhida uma amostra e encontrada sua média x,, e admitindo-se o; conhecido, podemos 
construir o intervalo 


hã —1,960;, % +1,960;[ (11.34) 


Esse intervalo pode ou não conter o parâmetro n, mas pelo exposto acima temos 95% de 
confiança de que contenha. 

Para ilustrar o que foi dito acima, consideremos o seguinte experimento de simulação. 
Geramos 20 amostras de tamanho n = 25 de uma distribuição normal de média p = 5 e desvio 
padrão o = 3. Para cada amostra construímos o intervalo de confiança para |, com coeficiente de 
confiança y = 0,95, que é da forma X + 1,176, usando (11.34). Na Figura 11.4, temos esses 
intervalos representados e notamos que três deles (amostras de números 5, 14 e 15) não contêm a 
média pn = 5. 


Figura 11.4 Intervalos de confiança para a média de uma N(5, 9), para 20 amostras de tamanho n = 25. 


to 
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Exemplo 11.13 Uma máquina enche pacotes de café com uma variância igual a 100 g?. Ela estava 
regulada para encher os pacotes com 500 g, em média. Agora, ela se desregulou, e queremos 
saber qual a nova média q. Uma amostra de 25 pacotes apresentou uma média igual a 485 g. 
Vamos construir um intervalo de confiança com 95% de confiança para q. De (11.34), teremos 


IC(u;0,95)=485+1,96x2, 


ou seja, 


IC(n;0,95) = ]481,489[, 


pois o, =o/vn =10/5=2g. 
Se T for um estimador do parâmetro 0, e conhecida a distribuição amostral de T, sempre será 
possível achar dois valores t, e t,, tais que 


P(4<0<4,)=y, (11.35) 


a probabilidade interpretada como em (11.33), e y um valor fixo, O < y < 1. Para uma dada 
amostra, teremos dois valores fixos para t, e t,, e o intervalo de confiança para 0, com coeficiente 
de confiança y, será indicado do seguinte modo: 


IC(8; y) = Jt,, bl. (11.36) 


Se a variância populacional o? não for conhecida, podemos substituir em (11.34) 0; por sy, 
em que S? é a variância amostral dada em (11.9). Para n grande, da ordem de 100, o intervalo 
(11.34), com essa modificação, pode ainda ser usado. Para n não muito grande, a distribuição 
normal não pode mais ser usada e terá de ser substituída pela distribuição t de Student, que 
estudamos no Capítulo 7. Esse assunto voltará a ser abordado no Capítulo 12. 

Para um coeficiente de confiança qualquer y, teremos de usar o valor z(y) tal que P(-z(y) < Z < 
z(y)) = y, com Z - N(0, 1). O intervalo fica 


C(u;y)=|X -z(v)0;;X +z(y)o;|- (11.37) 


Observe, também, que a amplitude do intervalo (11.37) é L=2z(y)o/n, que é uma constante, 
independente de X. Se construirmos vários intervalos de confiança para o mesmo valor de n, o e 
y, estes terão extremos aleatórios, mas todos terão a mesma amplitude L. 


Exemplo 11.14 Vamos obter um intervalo de confiança para o parâmetro p de uma distribuição b(n, 
p). Sabemos que se X = número de sucessos nas n provas, então X tem distribuição 
aproximadamente normal, com média | = np e variância o? = npq, com q = 1 - p. Logo, 

—-X-np 


e 


Z 


- N(0,1), 
ou ainda, 
Xjn- p Vn(P-p) RE 
z=20[P. OUT) -n(0,1). (11.38 
E A 
Assim, se y = 0,95, temos, consultando a Tabela III, que 
P(-1,96<Z <1,96)= 0,95, 
ou seja, 
Jn(b-p) 
Pq 
Portanto, com probabilidade 0,95, temos que 
-1,96/pg/n < p- p<1,96/pg/n, 


P-1,96/pg/n <p< P+1,96,/pg/n. 


Como não conhecemos p, podemos proceder de duas maneiras. Uma é usar o fato que pq Y 
1/4, de modo que, obtendo /pg/n <1/V4n, 


Passa <1,96 p= 0,95. 


do que segue 


Essa EN 
LR md (11.39) 

Temos, então, que |p-1,96//4m; p+1,96/V4n| é um intervalo de confiança para p, com coeficiente 
de confiança de 95%. 

Para um y qualquer, O <y < 1, (11.39) fica 


2 PR 
p-SDspsp+ TD (11.40) 


em que z(y) é definido como em (11.37). 


Exemplo 11.15 Numa pesquisa de mercado, n = 400 pessoas foram entrevistadas sobre determinado 
produto, e 60% delas preferiram a marca A. Aqui, » = 0,6 e um intervalo de confiança para p 
com coeficiente de confiança y = 0,95 será 
0,6+(1,96)1/1600 = 0,6+ 0,049, 
ou seja 
IC(p;0,95) = ]0,551,0,649[. 

O intervalo (11.40) é chamado conservador, pois se p não for igual a 1/2 e estiver próximo de 
zero ou de um, então ele fornece um intervalo desnecessariamente maior, porque substituímos pq 
pelo seu valor máximo, 1/4. Uma outra maneira de proceder é substituir pq por »q, com gG=1- à, 
sendo o estimador de máxima verossimilhança de p, por exemplo. O intervalo obtido fica 


p-z(v)Vba/n <p<p+=z(v)Vpá/n, (11.41) 
com z(y) definido como em (11.40). 
Na realidade, pode-se demonstrar que 


do que resulta a Fórmula (11.41). 


Exemplo 11.16 Suponha que em n = 400 provas obtemos k = 80 sucessos. Vamos obter um intervalo 
de confiança para p com y = 0,90. Como p = 80/400 = 0,2 eg =1-» = 0,8, então (11.41) fica 


0,2+(1,645),(0,2)(0,8)/400 =0,2+0,033, 


1C(D;0,90) =]0,167;0,233. 


ou seja, 


Usando (11.40) o intervalo conservador é 
IC(D;0,90) = ]0,159,0,241[. 


Observe que o primeiro intervalo tem amplitude menor que o segundo. Outra observação 
importante é que por (11.40) e um y fixo, os intervalos que podemos obter para amostras 
diferentes (mas de mesmo tamanho n) terão a mesma amplitude, dada por 2z(y)V4n. Por outro 


lado, usando (11.41), a amplitude do intervalo será 2:(y):?, que é variável de 
amostra para amostra, pois » (e, consequentemente, q) variará de amostra para amostra. 


Problemas 


14. Calcule o intervalo de confiança para a média de uma N(p, o?) em cada um dos casos abaixo. 


Média Amostral | Tamanho da Amostra | Desvio Padrão da População | Coeficiente de Confiança 


170 cm 15 cm 95% 
165 cm 184 30 cm 85% 
180 cm 225 30 cm 70% 


15. De 50.000 válvulas fabricadas por uma companhia retira-se uma amostra de 400 válvulas, e obtém-se a vida média de 800 
horas e o desvio padrão de 100 horas. 
(a) Qual o intervalo de confiança de 99% para a vida média da população? 
(b) Com que confiança é possível afirmar que a vida média é 800 + 0,98? 
(c) Que tamanho deve ter a amostra para que seja de 95% a confiança na estimativa 800 + 7,84? 
(Que suposições você fez para responder às questões acima?) 
16. Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença da média amostral para a média da 
população, em valor absoluto, seja menor que 1, com coeficiente de confiança igual a: 
(a) 95% (b) 99% 
17. Uma população tem desvio padrão igual a 10. 
(a) Que tamanho deve ter uma amostra para que, com probabilidade 8%, o erro em estimar a média seja superior a uma 
unidade? 
(b) Supondo-se colhida a amostra no caso anterior, qual o intervalo de confiança, se x = 50? 
18. Uma amostra aleatória de 625 donas de casa revela que 70% delas preferem a marca A de detergente. Construir um intervalo 
de confiança para p = proporção das donas de casa que preferem A com c.c. y = 90%. 
19. Encontre os intervalos de confiança para p se k/n = 0,3, com c.c. y = 0,95. Utilize os dois enfoques apontados na Seção 11.6, 
com n = 400. 
20. Antes de uma eleição, um determinado partido está interessado em estimar a proporção p de eleitores favoráveis ao seu 
candidato. Uma amostra piloto de tamanho 100 revelou que 60% dos eleitores eram favoráveis ao candidato em questão. 
(a) Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de, no máximo, 0,01 com 
probabilidade de 80%. 
(b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% dos eleitores eram favoráveis ao candidato 
em questão, construa um intervalo de confiança para a proporção p. Utilize y = 0,95. 
21. Suponha que estejamos interessados em estimar a proporção de consumidores de um certo produto. Se a amostra de tamanho 
300 forneceu 100 indivíduos que consomem o dado produto, determine: 
(a) o intervalo de confiança para p, com coeficiente de confiança de 95% (interprete o resultado); 
(b) o tamanho da amostra para que o erro da estimativa não exceda a 0,02 unidades com probabilidade de 95% (interprete o 
resultado). 


11.7 Erro Padrão de um Estimador 


Vimos que, obtida a distribuição amostral de um estimador, podíamos calcular a sua variância. 
Se não pudermos obter a distribuição exata, usamos uma aproximação, se essa estiver disponível, 
como no caso de X, e a variância do estimador será a variância dessa aproximação. Por exemplo, 
para a média amostral X, obtida de uma amostra de tamanho n, temos que 

ic o? 
Var(X)=—, 
na qual 0? é a variância da v.a. X definida sobre a população. 


À raiz quadrada dessa variância chamaremos de erro padrão de X e o denotaremos por 


EP(X)=T. (11.42) 


Definição. Se T for um estimador do parâmetro ' chamaremos de erro padrão de T a quantidade 


EP(T)= JVar(T). (11.43) 


A variância de T dependerá dos parâmetros da distribuição de X, o mesmo acontecendo com o 
erro padrão. Por exemplo, em (11.42), EP( X) depende de o, que em geral é desconhecida. 


Podemos, então, obter o erro padrão estimado de X, dado por 
ep(X)=EP(X)=s/vh, (11.44) 
na qual S? é a variância amostral. Genericamente, o erro padrão estimado de T é dado por 
EP(T)= (Var(7). (11.45) 


Muitas vezes, a quantidade (11.45) é chamada de erro amostral. Mas preferimos chamar de 
erro amostral à diferença e = T- 6. 


Exemplo 11.17 Para o Exemplo 11.15, p = 0,6, e o erro padrão de p será dado por 
gp (p)= | PU-2), (11.46) 
n 


Como não conhecemos p usamos no seu lugar o estimador », obtendo-se 


EP (p)=(0,6)(0,4)/400 = 0,025. 


Observe que o intervalo de confiança (11.41) pode ser escrito 
pz(v)(EP(p)), 
ao passo que o intervalo para q dado por (11.37) pode ser escrito 


X «(1,96)(EP(X)). 


11.8 Inferência Bayesiana 


O estabelecimento de uma ponte entre os valores observados na amostra e os modelos 
postulados para a população, objeto da inferência estatística, exige a adoção de princípios 
teóricos muito bem especificados. Neste livro, usaremos a chamada teoria frequentista (às vezes, 
também chamada de clássica). Seus fundamentos encontram-se em trabalhos de J. Neyman, E. 
Pearson, R. Fisher e outros. 

Consideremos um exemplo para ilustrar esse enfoque. Suponha que tenhamos uma amostra 
observada (x,, ..., x,) de uma população normal, N(p, 02), e queremos fazer inferências sobre os 
valores de | e 02, baseados nas n observações. 

Por meio de algum procedimento estudado neste capítulo, selecionamos estimadores pí(x) e & 
2(x) que sejam funções do vetor de observações x = (x,, ..., x,)'. Considere dados hipotéticos x,, 
X» --- todos amostras de tamanho n, que poderiam ter sido gerados da população em questão. 
Obtemos, então, as distribuições amostrais de |í (x) e 6x), como na Seção 10.7. Podemos 
também obter intervalos de confiança para os parâmetros desconhecidos | e 02, bem como testar 
hipóteses sobre esses parâmetros, assunto a ser discutido no Capítulo 12. 

Para construir intervalos de confiança e testar hipóteses será necessário conhecer a distribuição 
amostral dos estimadores. Como só temos um conjunto de dados e não dados hipotéticos, essas 
distribuições amostrais terão de ser obtidas de outra maneira, e não como no Exemplo 10.7. 
Usualmente isso é feito usando teoremas como o Teorema Limite Central, discutido na Seção 
10.8, obtendo-se uma distribuição aproximada para os estimadores, que vale para tamanhos de 
amostras grandes. 


A crítica que se faz à teoria frequentista é a possibilidade de “replicar dados”, bem como o 
recurso à teoria assintótica. Uma teoria que não faz uso de tais argumentos é a inferência 
bayesiana, cujos fundamentos foram estabelecidos por T. Bayes em 1763. Outros expoentes 
dessa corrente foram Bernoulli (1713), Laplace (1812) e Jeffreys (1939). Aqui, o Teorema de 
Bayes, estudado no Capítulo 5, tem papel fundamental. A noção de probabilidade prevalente 
aqui é a subjetiva, discutida brevemente no mesmo capítulo. 

Com relação ao nosso exemplo, a Inferência Bayesiana admite que os parâmetros pq e o2, que 
são quantidades desconhecidas da distribuição de X, podem ser descritos por uma distribuição de 
probabilidades, p(y, 07), chamada a distribuição a priori desses parâmetros. Nessa distribuição, 
são incorporadas todas as informações que temos sobre 60 = (n, 0º), inclusive de natureza 
subjetiva. Essa distribuição é hipotetizada antes de se colherem os dados. 

O que é importante observar é que, tanto na teoria frequentista como na bayesiana, um 
parâmetro qualquer, como |, no exemplo acima, é considerado fixo. O que se faz no enfoque 
bayesiano é caracterizar a incerteza sobre esse parâmetro por meio de uma distribuição de 
probabilidades. 

Após obtidos os dados, obtemos a função de verossimilhança, que incorpora a informação 
sobre 8 fornecida pelos dados. Finalmente, obtemos a distribuição a posteriori de 0, dada a 
amostra observada. Um estimador de 6 pode ser tomado, por exemplo, como a média ou a moda 
dessa distribuição a posteriori. 

Vimos no Capítulo 5 que o teorema de Bayes pode ser usado para atualizar probabilidades de 
um evento. Mas o teorema também pode ser utilizado para obter informação sobre um parâmetro 
desconhecido de um modelo probabilístico, como o binomial ou normal, por exemplo. 
Chamemos de O um tal parâmetro, suposto desconhecido, e para o qual tenhamos alguma 
informação anterior, consubstanciada numa distribuição de probabilidades p(9), chamada 
distribuição a priori de 8. Vamos supor, por ser mais simples, que O tenha os valores 0,, 0,, ..., 0, 
com probabilidades a priori P(0 = 0) = p(0), i = 1, 2, ..., r. Chamemos de y a nova informação 
sobre 0, que também é obtida de um modelo discreto. Então o Teorema de Bayes pode ser escrito 


p(0,)P(»|09,) 
P(9,|y)==> o 6 odi (11,47 
> aP(8,)P(»/9,) ( ) 
Aqui, as verossimilhanças são P(y|0)), ..., P(y]9)), e as probabilidades a posteriori 


determinadas pelo teorema de Bayes são P(0,|y), ..., P(0,|y). Obtida essa distribuição a posteriori 
de 8, dada a nova informação y, podemos por exemplo estimar 6 como a média dessa distribuição 
ou a moda (o valor que maximiza P(0|y)). 


Exemplo 11.18 Vamos considerar uma aplicação do Teorema de Bayes a um exemplo simples de 
mercado de ações. Chamemos de y o rendimento do IBOVESPA (Índice da Bolsa de Valores de 
São Paulo), em porcentagem, por período (mês, por exemplo). Suponha que estejamos 
interessados somente se o rendimento for positivo (y > 0) ou negativo (y < 0). Designando por 0 
o “estado do mercado”, vamos considerar apenas dois estados, mercado em alta (9,) ou mercado 
em baixa (0,). Suponha que se tenha a seguinte informação prévia (ou a priori) sobre as 
probabilidades de 0,e 0;: 


priori 8, 
p(9) 2/5 


Então, as probabilidades a priori dos estados são p(0,) = P(0 = 0,)) = 3/5 e p(0,) = 
P(O = 0,) = 2/5. As verossimilhanças são dadas aqui por 
P(»>0/0) e P(y<ojo), 
para 0 = 0,, 0,, que denotaremos genericamente por p(y|8). Essas verossimilhanças são supostas 
conhecidas no Teorema de Bayes e vamos supor que em nosso caso são dadas na tabela abaixo. 


y>0 2/3] 1/3 
y<0/1/3]2/3 


Ou seja, temos que 
P(»>0/8,)=2/3, P(y>0/8,)=1/3 
P(y<0/8,)=1/3, P(y<olo,)=2/3. 
Podemos calcular as probabilidades conjuntas p(y,0), ou seja, 
p(,8) = p(6)p(/8), 


obtendo-se a tabela abaixo. 


Por exemplo, 
P(y>0,0=0,)=P(0=0,)-P(y>0/0=0,)=3/5x2/3= 6/15. 
O Teorema de Bayes, dado pela Fórmula (11.47), fornece as probabilidades a posteriori de 0, 
e 0,, dado o valor observado de y: 


p(9y) - MELASe) (11.48) 


Para calcular (11.48) precisamos calcular p(y), que são chamadas probabilidades marginais 
preditoras ou simplesmente previsões. Usando o mesmo argumento que deu origem a (5.14), 
podemos escrever 


p(»y) )=2,P(9,8)= = 2, p(6) 


Em nosso caso, 
P(y>0)=P(9,)P(y>0/9,)+P(9,)P(y>0]0,) 
=3/5x 2/3+2/5x1/3=8/15. 
Do mesmo modo, 
P(y<0)=P(0)P(y <0/89)) + P(0)P(y <0/8,) = 7/15, 


e teremos a tabela a seguir: 


y | PO) 
y>0 | 8/15 
y<0| 7/15 


Vemos que essa é a mesma distribuição marginal de y, dada na tabela que mostra a 
distribuição conjunta de y e 6. 
Então, por (11.48), 


P(0,)P(y>0/0,) 3/5x2/3 


P(O-0p>0)- o) ans nm 
p(9=6,]9>0)=CPb TAB) ya, 


De modo análogo, obtemos 
P(9=8,|y<0)=3/7, P(0=8,|»<0)=4/7. 


Temos, então, as probabilidades condicionais de alta e baixa, dada a informação de que o 
retorno é positivo ou negativo: 


p(BIy) 


y>0 1/4 
y<0|3/7|4/7 
Podemos, por exemplo, “estimar” O (alta ou baixa) por 0, (mercado em alta) se y > 0, já que 
P(0 = 0,|y> 0) = 3/4 e “estimar” 0 por 0, (mercado em baixa) se y < 0, pois P(0 = 0,ly < 0) = 4/7. 
Ou seja, tomamos o valor máximo da probabilidade a posteriori, dada a informação sobre o 
rendimento. 
Esse é um exemplo do que se chama de modelo estático. Poderíamos considerar um modelo 


dinâmico, supondo-se que esse muda de período para período (de dia para dia ou de mês para 
mês etc.). 


11.9 Exemplos Computacionais 


11.9.1 Simulando Erros Padrões 


Na Seção 11.7, definimos o que seja o erro padrão de um estimador T de um parâmetro 6, 
baseado numa AAS de uma população rotulada pela v.a. X. Vimos, em particular, que o erro 
padrão da média amostral X é dado por (11.42) e esse pode ser estimado por (11.44), ou seja, 


da 
ERA jo ma 
O erro padrão de um estimador é fundamental para avaliarmos quão bom ele é. Simplesmente 
calcular T, ou saber que ele é não viesado, não é suficiente: é necessário calcular sua 
variabilidade. 


Mas, na maioria das situações, não podemos obter uma estimativa do erro padrão de um 
estimador. Considere, por exemplo, a mediana de uma amostra, 


md = med(X,, ..., X,). (11.49) 


Pode não ser fácil calcular a Var(md) e, consequentemente, o erro padrão de md. Se 
admitirmos que a aproximação (11.18) é razoável, então teremos 


EP(md) = o a 


e poderemos, novamente, estimar o por S e obter 


EP (ma) = s (2. 


Mas, se tivermos amostras não muito grandes, a aproximação pode não ser adequada. 

Felizmente, com o progresso de métodos computacionais usando intensivamente 
computadores cada vez mais rápidos e com capacidade cada vez maior de lidar com conjuntos 
grandes de dados, o cálculo de erros padrões, vieses etc., pode ser feito sem recorrer a uma 
teoria, que muitas vezes pode ser muito complicada ou simplesmente não existir. 

Um desses métodos é chamado bootstrap, introduzido por B. Efrom, em 1979. Os livros de 
Efrom e Tibshirani (1993) e Davison e Hinkley (1997) são referências importantes para aqueles 
que quiserem se aprofundar no assunto. 

A ideia básica do método bootstrap é reamostrar o conjunto disponível de dados para estimar 
o parâmetro 0, com o fim de criar dados replicados. A partir dessas replicações, podemos avaliar 
a variabilidade de um estimador proposto para 8, sem recorrer a cálculos analíticos. 

Vamos ilustrar o método com um exemplo. 


Exemplo 11.19 Suponha que temos os dados amostrais x = (X,, X, -.., X,) e queremos estimar a 
mediana populacional, Md, por meio da mediana amostral md(x) = med(x,, ..., x,). 


Vamos escolher uma AAS (portanto, com reposição) de tamanho n dos dados. Tal amostra é 
chamada uma amostra bootstrap e denotada por x” = (X",, ..., x"). 


Por exemplo, suponha que x = (X,, X,, X3, X, X:). Poderemos obter, por exemplo, x” = (X,, X4, Xa, 
X1 Xo). 

Suponha, agora, que geremos B tais amostras independentes, denotadas x”,, ..., xp. Para cada 
amostra bootstrap, geramos uma réplica bootstrap do estimador proposto, ou seja, de md(x), 
obtendo-se 

md(x*)), md(x*,), ..., md(x*5). (11.50) 


Definimos o estimador bootstrap do erro padrão de md(x) como 


— 2 142 
EB, (ma)=| Deulma(ss)-ma) |, (11.51) 
L B-| J 
com 
= umas) (11.52) 
Ou seja, o estimador bootstrap do erro padrão da mediana amostral é o desvio padrão amostral 
do conjunto (11.50). Na Figura 11.5, temos representado o esquema do método. 


Vamos ilustrar o método com um exemplo numérico simples. Suponha que n = 5 e a amostra é 
x=(2,5, 3, 4, 6). Vamos considerar B = 5 amostras bootstrap de x. Como gerar tais amostras? 


Primeiramente, geramos cinco números aleatórios i,, ..., i; dentre os cinco números inteiros 1, 2, 
3, 4, 5 e consideramos a amostra bootstrap x” = (x,, .... X;5). Repetimos esse procedimento cinco 
vezes. Podemos usar a Tabela VII para gerar esses NA, como já aprendemos. Considere, por 
exemplo, as cinco primeiras linhas e, começando do canto esquerdo, prossiga em cada linha até 
obter cinco dígitos entre 1 e 5, inclusive; note que pode haver repetições! Obtemos a Tabela 
11.2. 


Figura 11.5 Procedimento bootstrap para calcular o erro padrão da mediana amostral. 


É =D a 


sai ————— a» md(xç) 


Tabela 11.2 Procedimento bootstrap. 


NA Amostra bootstrap | md(x*) x(x*) 
1,225;1 (2,5,5,6,2) 5,0 4,0 
4,4,4,3,2 (4,4,4,3,5) 4,0 4,0 
5,4,5,5,5 (6,4,6,6,6) 6,0 5,6 
5,1,1,5,5 (6,2,2,6,6) 60 | 44 
254,5,3 (5,6,4,6,3) 5,0 4,8 


Por exemplo, obtidos os NA 1, 2, 2, 5, 1, teremos a amostra bootstrap (X,, X», X», Xs, Xy) = (2, 9, 
5, 6, 2), para a qual a mediana amostral é 5. Segue-se que md =26/5=5,2€ 


et $ “ 2 e 
EP, (ma)= | Dia(ma(33)-5,2) | =0,837. 
L 4 J 
Se usarmos a aproximação (11.18), calculamos a variância da amostra original, obtendo-se S? 


= 2,5, donde EP(md)=0,886. Levando-se em conta o tamanho da amostra, a discrepância entre os 


dois valores não é grande. 
Veja a página do livro para aprender como usar o R para obter amostra bootstrap e calcular o 
erro padrão correspodente. 


Exemplo 11.20 Na Tabela 11.2, calculamos, também, para cada amostra bootstrap, a média 
amostral, x. Obtemos, usando (11.51), 
EP, (x) = 0,669, 
e usando a fórmula (11.44), 
EP(x)= 2,5/5 = 0,707, 

logo o valor obtido pelo método bootstrap está bastante próximo do valor calculado pela fórmula 
obtida de maneira analítica. Obviamente, em situações nas quais há uma fórmula disponível, não 
há necessidade de se usar bootstrap. 

A questão que se apresenta é: qual deve ser o valor de B, ou seja, quantas amostras bootstrap 
devemos gerar para estimar erros padrões de estimadores? A experiência indica que um valor 
razoável é B = 200. 


No caso geral de um estimador ô = T(x), o algoritmo bootstrap para estimar o erro padrão de ô 
é o seguinte: 
[1] Selecione B amostras bootstrap independentes x”,, ..., x, cada uma consistindo de n 
valores selecionados com reposição de x. Tome B = 200. 
[2] Para cada amostra bootstrap x", calcule a réplica bootstrap 


d*(b)=T(x), b=1,2,..,B. 
[3] O erro padrão de Ô é estimado pelo desvio padrão das B réplicas: 


EP, [553 (0-5). (11.53) 


com 


2,8(0) (11.54) 


gr= Ei 


No exemplo acima, notamos que um intervalo de confiança aproximado para a mediana 
populacional Md, com coeficiente de confiança 95%, seria 
5,2+(1,96)(0,837)=]3,56;6,84[. 


No exemplo dado, para efeito de ilustração do método bootstrap, tomamos uma amostra 
pequena (n = 5) e poucas amostras bootstrap (B = 5). Para amostras maiores e B na ordem de 
200 deveremos fazer um pequeno programa, em alguma linguagem (como o Visual Basic, 5, 
Fortram, C etc.), que gere as amostras bootstrap, e calcular o estimador dado por (11.53). Isso 
implica, em particular, gerar, para cada amostra bootstrap, n números aleatórios. Como já vimos, 
não é prático usar uma tabela de NA nessa situação; devemos usar alguma rotina de computador. 


11.10 Problemas Suplementares 


22. Um pesquisador está em dúvida sobre duas possíveis estatísticas, t e t', para serem usadas como estimadores de um parâmetro 
0. Assim, ele decidiu usar simulação para uma situação hipotética, procurando encontrar pistas que o ajudassem a decidir qual o 
melhor estimador. Partindo de uma população fictícia, onde O = 10, ele retirou 1.000 amostras de 20 elementos, e para cada 
amostra calculou o valor das estatísticas t e t'. Em seguida, construiu a distribuição de frequências, segundo o quadro abaixo. 


Classes | % det | % det 
5 p= 7 10 EE 
7 = 9 20 30 
9p= 11 40 35 
11 -=13 20 25 
13-15 10 > 


(a) Verifique as propriedades de t e t como estimadores de 6. 
(b) Qual dos dois você adotaria? Por quê? 
23. De experiências passadas, sabe-se que o desvio padrão da altura de crianças de 5º série do 1º grau é 5 cm. 
(a) Colhendo uma amostra de 36 dessas crianças, observou-se a média de 150 cm. Qual o intervalo de confiança de 95% para a 
média populacional? 
(b) Que tamanho deve ter uma amostra para que o intervalo 150 + 0,98 tenha 95% de confiança? 
24. Um pesquisador está estudando a resistência de um determinado material sob determinadas condições. Ele sabe que essa 
variável é normalmente distribuída com desvio padrão de duas unidades. 
(a) Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine o 
intervalo de confiança para a resistência média com um coeficiente de confiança y = 0,90. 
(b) Qual o tamanho da amostra necessário para que o erro cometido, ao estimarmos a resistência média, não seja superior a 
0,01 unidade com probabilidade 0,90? 


(c) Suponha que no item (a) não fosse conhecido o desvio padrão. Como você procederia para determinar o intervalo de 
confiança, e que suposições você faria para isso? Veja também o Problema 44. 
25. Estime o salário médio dos empregados de uma indústria têxtil, sabendo-se que uma amostra de 100 indivíduos apresentou os 
seguintes resultados: 


Salário Frequência 
150,00 |-- 250,00 8 
250,00 |-- 350,00 22 
350,00 |-- 450,00 38 
450,00 |-- 550,00 28 
550,00 |-- 650,00 2 
650,00 |-- 750,00 2 


Use y = 0,95. 
26. Suponha que as vendas de um produto satisfaçam ao modelo 
V-a+bBt+a, 
em que a, é a variável aleatória satisfazendo as suposições da Seção 11.4, e o tempo é dado em meses. Suponha que os valores 


das vendas nos 10 primeiros meses do ano 1 sejam dados pelos valores da tabela abaixo. Obtenha as previsões para os meses de 
novembro e dezembro do ano 1 e para julho e agosto do ano 2. 


10 


10,8 


27. Numa pesquisa de mercado para estudar a preferência da população de uma cidade em relação a um determinado produto, 
colheu-se uma amostra aleatória de 300 indivíduos, dos quais 180 preferiam esse produto. 
(a) Determine um intervalo de confiança para a proporção da população que prefere o produto em estudo; tome y = 0,90. 
(b) Determine a probabilidade de que a estimativa pontual dessa proporção não difira do verdadeiro valor em mais de 0,001. 
(c) É possível obter uma estimativa pontual dessa proporção que não difira do valor verdadeiro em mais de 0,0005 com 
probabilidade 0,95? Caso contrário, determine o que deve ser feito. 
28. Uma amostra de 10.000 itens de um lote de produção foi inspecionada, e o número de defeitos por item foi registrado na 
tabela abaixo. 


Nº de defeitos 0 
Quantidade de peças | 6.000 


(a) Determine os limites de confiança para a proporção de itens defeituosos na população, com coeficiente de confiança de 

98%. Use (11.40). 

(b) Mesmo problema, usando (11.41). 
29. Antes de uma eleição em que existiam dois candidatos, A e B, foi feita uma pesquisa com 400 eleitores escolhidos ao acaso, e 
verificou-se que 208 deles pretendiam votar no candidato A. Construa um intervalo de confiança, com c.c. y = 0,95, para a 
porcentagem de eleitores favoráveis ao candidato A na época das eleições. 
30. Encontre o c.c. de um intervalo de confiança para p, se n = 100, p = 0,6 e a amplitude do intervalo deve ser igual a 0,090. 
31. Usando os resultados do Problema 32 do Capítulo 10, mostre que o intervalo de confiança para a diferença das médias 
populacionais, com variâncias conhecidas, é dado por 

IC(u, -H, v)=(X-P)tz(y)Vo?/m, +oi/n,. 

32. Estão sendo estudados dois processos para conservar alimentos, cuja principal variável de interesse é o tempo de duração 
destes. No processo A, o tempo X de duração segue a distribuição N(pa, 100), e no processo B o tempo Y obedece à distribuição 
N(gp; 100). Sorteiam-se duas amostras independentes: a de 4, com 16 latas, apresentou tempo médio de duração igual a 50, e a 
de B, com 25 latas, duração média igual a 60. 

(a) Construa um IC para ny e Hp, separadamente. 

(b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se construir um IC para a diferença py - Hp. 


Caso o zero pertença ao intervalo, pode-se concluir que existe evidência de igualdade dos processos. Qual seria sua resposta? 


33. Usando (11.55), prove que X é um estimador consistente para a média y de uma população com variância 02. 


34. Prove (11.56), usando (11.55). 


35. Usando (11.57), resolva este problema: suponha que a proporção de fumantes de uma população é p, desconhecida. 
Queremos determinar p com um erro de, no máximo, 0,05. Qual deve ser o tamanho da amostra n, a ser escolhida com reposição, 
se y = 0,95? 

36. Se a distribuição de X depende de mais de um parâmetro, digamos 0, e 05, então L(0,, 05; X4, ..., Xn), e para maximizar L 
basta derivar L em relação a 0, e 8, (em algumas situações, derivar L não conduz ao EMV; veja o Problema 43). Considere, 
então, X - N(p, 02). Determine os EMV de p e 02, considerando 0£/0p = 0 e 08/00? = 0, em que £ = log L. 

37. Suponha que X3 N(p, 02), pe o? desconhecidos. Uma amostra de tamanho n = 600 forneceu X = 10,3 e S? = 1,96. Supondo 


que a v.a. Z = AT 


s/n 


normal, obtenha um IC para y, com c.c. y = 0,95 (se n for pequeno, Z não é aproximadamente normal; ver Capítulo 12). 


seja aproximadamente 


38. Para estimar a média q desconhecida de uma população, foram propostos dois estimadores não viesados independentes, H e 


H5, de tal sorte que Var(ti) = Var(Hi>)/3. Considere os seguintes estimadores ponderados de q: 
(a) Ty = (Hi + Ho)2; 
(b) To = (4P6 + JS; 
(o) Ta = Ph. 


(i) Quais estimadores são não viesados? 
(ii) Dispor esses estimadores em ordem crescente de eficiência. 
39. Obtenha o estimador de À na Poisson, pelo método dos momentos. 
40. Considere o CD-Notas e retire uma amostra com reposição de tamanho n = 10. Determine o erro padrão estimado pelo 
método bootstrap das estatísticas (use B = 15, por exemplo): 

(a) md = mediana da amostra; 

(b) dm = desvio médio da amostra; 

(c) dam = desvio absoluto mediano. 
41. Prove (11.15). 
42. Calcule o EQM (erro quadrático médio), dado por (11.20), para os estimadores S? e 6”, no caso de população normal. 
Compare esses dois EQM. Qual estimador você escolheria, se o critério de escolha é ter o menor EQM? 
43. Considere a v.a. discreta X com função de probabilidade dada por: 

p()=P(X=2)=5. x=1,2,...,0 

em que 8 > O é um número inteiro desconhecido. Uma AAS X,, ..., X, de tamanho n é selecionada e considera-se o seguinte 
estimador de 6: 


T=2X-1, emque f=,3x, 


(a) Mostre que T é um estimador não viesado de O e obtenha sua variância. T é um estimador consistente de 0? Por quê? 


(b) Se n = 6 e a amostra observada for x, =x, = x3=x4=x5 = 1e x, = 2, qual é a estimativa de 6? Esta estimativa é um valor 


plausível para 92 Sugira outro estimador para o) que somente conduza a valores plausíveis de 6. 
[Observação: St i= k(k + 1)/2, S' p= k(k + 1)(2k +1)/6, k 1, k inteiro.) 
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11.11 Complementos Metodológicos 


1. Desigualdade de Chebyshev. Seja X uma v.a. com E(X) = np e Var (X) = o2, finita. Então, para todo k > o, a seguinte 
desigualdade é válida: 


P(ix -ulzk)sVar(X)/k2. (11.55) 


Esta desigualdade é importante em muitas aplicações e, em particular, para provar o resultado (11.56) a seguir. 

2. Lei dos Grandes Número. Consideremos n provas de Bernoulli com p = P (sucesso), e seja k o número de sucessos nas n 
provas. A Lei dos Grandes Números (LGN) afirma que, para n grande, a proporção de sucessos k/n estará próxima de p = P 
(sucesso).Formalmente, para todo e > 0, 


ae)a el (11.56) 


dd RR 


Prove (11.56), usando (11.55). 


3. A LGN pode ser usada de mandeira útil na seguinte situação. Suponha que queiramos sabe rquantas repetições de um 
experimento de Bernoulli devemos realizar a fim de que k/n difira de p de menos de e, com probabilidade maior ou igual a y. Ou 


seja, queremos determinar n, tal que 
ko 
Plj-— : 
E P z | zy 
De (11.56), temos 


logo, comparando, temos que n deve satisfazer 


do que segue ,- p(i-») em que ô=1-y. 


de? * 


Como não conhecemos p, usando o fato de p (1— p) p < 1/4; logo basta tomar n tal que 
ba (11.57 
"= 207" Eid) 


4. Estimação numa distribuição uniforme. Suponha que X tenha uma distribuição uniforme no intervalo (0, 0), onde O é 
desconhecido. Uma amostra de n observações X4, ..., X, é escolhida. Sabemos que E(X) = E(X;) = 9/2, para todo i, e Var(X) = 
Var(X;) = 82/12, para todo i. Logo, se calcularmos a média amostral X, essa deve estar próxima de 8/2 e podemos estimar 8 por Tj 
=2X. 

(a) Calcule E(T,). 

(b) Calcule EQM(T)) = E(T, - 62. 

(c) T, é consistente? Por quê? 
5. Continuação de 4. Outra maneira de estimar 6 na uniforme é a seguinte. Considere M = max(X,, ..., X,) = X(n) OU Seja, o maior 


valor da amostra. Para qualquer valor de 0, M < 6 e M se aproxima de 8 quando n aumenta. Tome M como estimador de 0, o que 
é bastante razoável. Na realidade, veremos, em 9, que M = (my: Usando (10.10) a densidade de M é dada por 


fda)=[67 NOSSO (1158) 


0, caso contr'io. 


-—* logo M é viesado. Calcule o viés Vm(8) de M e mostre que esse viés tende a zero, quando n — 
+ 


(a) Mostre que E(M)=6 
n+1 


00, 


(b) Considere o estimador 7, « dad M; segue-se que T, é não viesado para 8, ou seja, E(T,) = 6. Calcule o erro quadrático 
n 


médio de T;, EQM(T;) = E(T; - 8)?. 

(c) T; é consistente? Por quê? 
6. Usando 4 e 5, mostre que Var(T5) = [3/(n + 2)] Var(T;). Tome n = 1, 2, 10, 50, 100 e verifique qual a relação entre as duas 
variâncias. Verifique que, para n grande, T; = [(n + 1)/n]M é um estimador muito melhor do que T, = 2X. Como T; = (1 + mM, 
vemos que, para n grande, T, = M. Portanto, para tamanhos de amostras grandes, o EMV é melhor do que 2X. 
7. Suponha que n seja suficientemente grande para que o TLC se aplique e se possa aproximar a distribuição de X e de M por uma 


distribuição normal. 
(a) Calcule a média e variânça de T;, M e T». 


(b) Obtenha um I.C. (8; 0,90) usando T. 


(c) Idem usando M. 
(d) Idem usando T;. 


[Sugestão: substitua na variânça de cada estimador, obtida em (a), o parâmetro 8, desconhecido, pelo seu estimador, para obter a 
respectiva variânça estimada] 

8. Foram gerados 1.000 valores de uma distribuição uniforme no intervalo (0, 5), ou seja, 8 = 5. As seguintes estatísticas foram 
obtidas: 


Xw= min(X,,...,X ooo ) = 0,01 132, Xqoo =M = max( X,,...,X ooo ) = 4,992; 
q=1315, q,=2,572, q,=3,829, X = 2,547. 
Calcule T,, T; e aplique o resultado de 7 para obter um intervalo de confiança para 8, com c.c. = 90%. 


9. EMV na uniforme. Como 


( ) 1/0, se0<x<0, 
xi= 
0, caso contr'tio, 


a densidade conjunta da amostra é 


H 6) 1/9”, se0sx,<0,i=1,..,n 

3:00, X 50) = 

a 0, caso contrírio, 

Segue-se que “(0|xy, ..., xn) = -n log 6 e derivando e igualando a zero obteremos -n/0 = 0, ou seja, o EMV de 6 seria 00! 


Evidentemente, essa não é a resposta. Na realidade, não podemos simplesmente derivar a verossimilhança (ou o logaritmo dela) 
para obter o máximo, pois temos as restrições O < x; < 0, para todo i. Façamos o seguinte. Considere o gráfico da densidade 


conjunta, ou da verossimilhança, como função de 8. Como devemos ter O < x; < 0, para todo i, o máximo M dos x; deve ser tal que 
0O<M<0, ou seja, obtemos o gráfico abaixo. 


L(g|x) + 


Ou seja, L(0|x,, ..., x) = 0, para 6 < M; logo, o máximo da verossimilhança é obtido para 8 = M e portanto Qmy= M. 

Esse exemplo mostra que nem sempre obteremos o EMV derivando-se a verossimilhança e igualando-a a zero. 

10. Outro I.C. para p. Considere ( P- p) / fo(1- p)/n- N(0,1). Logo, com coeficiente de confiança y, um intervalo de confiança 
para p seria: 


Daqui segue que (p - p? < [p(d - pyYnzy2. Resolva esta inequação para p e obtenha o L.C. Se p = 0,3 ew = 0,95, obtenha o 
correspondente 1.C. 


Capítulo 12 


Testes de Hipóteses 


12.1 Introdução 


Vimos no Capítulo 10 que um dos problemas a serem resolvidos pela Inferência Estatística é o 
de testar uma hipótese. Isto é, feita determinada afirmação sobre uma população, usualmente 
sobre um parâmetro dessa, desejamos saber se os resultados experimentais provenientes de uma 
amostra contrariam ou não tal afirmação. Muitas vezes, essa afirmação sobre a população é 
derivada de teorias desenvolvidas no campo substantivo do conhecimento. A adequação ou não 
dessa teoria ao universo real pode ser verificada ou refutada pela amostra. O objetivo do teste 
estatístico de hipóteses é, então, fornecer uma metodologia que nos permita verificar se os dados 
amostrais trazem evidências que apoiem ou não uma hipótese (estatística) formulada. 

Neste capítulo, iremos introduzir o procedimento básico de teste de hipótese sobre um 
parâmetro de uma população. A ideia central desse procedimento é a de supor verdadeira a 
hipótese em questão e verificar se a amostra observada é “verossímil” nessas condições. No 
capítulo seguinte, daremos alguns testes para comparação de parâmetros de duas populações. 


12.2 Um Exemplo 


Vamos introduzir a ideia de teste de uma hipótese por meio de um exemplo hipotético que, 
partindo de uma situação simples, será gradualmente ampliado para atender à situação geral do 
teste de hipóteses. 


Exemplo 12.1 Uma indústria usa, como um dos componentes das máquinas que produz, um 
parafuso importado, que deve satisfazer a algumas exigências. Uma dessas é a resistência à 
tração. Esses parafusos são fabricados por alguns países, e as especificações técnicas variam de 
país para país. Por exemplo, o catálogo do país A afirma que a resistência média à tração de seus 
parafusos é de 145 kg, com desvio padrão de 12 kg. Já para o país B, a média é de 155 kg e 
desvio padrão 20 kg. 

Um lote desses parafusos, de origem desconhecida, será leiloado a um preço muito 
convidativo. Para que a indústria saiba se faz ou não uma oferta, ela necessita saber qual país 
produziu tais parafusos. O edital do leiloeiro afirma que, pouco antes do leilão, será divulgada a 
resistência média x de uma amostra de 25 parafusos do lote. Qual regra de decisão deve ser usada 
pela indústria para dizer se os parafusos são do país A ou B? 

Uma resposta que ocorre imediatamente é a que considera como país produtor aquele para o 
qual a média da amostra mais se aproximar da média da população. Assim, uma possível regra 
de decisão seria: 


Se x < 150 (o ponto médio entre 145 e 155), diremos que os parafusos são do país A; caso 


contrário, isto é, x > 150, são do país B. 
Na Figura 12.1, ilustramos essa regra de decisão. 


Figura 12.1 Regra de decisão para o Exemplo 12.1. 


A a 7 - B 


A um nm a 


145 150 155 
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Suponha que, no dia do leilão, fôssemos informados de que x = 148; de acordo com nossa 
regra de decisão, diríamos que os parafusos são de origem A. Podemos estar enganados nessa 
conclusão? Ou, em outras palavras, é possível que uma amostra de 25 parafusos de origem B 
apresente média x = 148? Sim, é possível. Então, para melhor entendermos a regra de decisão 
adotada, é interessante estudarmos os tipos de erros que podemos cometer e as respectivas 
probabilidades. 

Podemos cometer dois tipos de erros, e vamos numerá-los para facilitar a linguagem: 

Erro de tipo I: dizer que os parafusos são de A quando na realidade são de B. Isso ocorre 
quando uma amostra de 25 parafusos de B apresenta média x inferior ou igual a 150 kg. 

Erro de tipo II: dizer que os parafusos são de B, quando na realidade eles são de A. Isso ocorre 
quando uma amostra de 25 parafusos de A apresenta média x superior a 150 kg. 

Para facilitar ainda mais, vamos definir duas hipóteses também numeradas: 

Ho: os parafusos são de origem B. Isso equivale a dizer que a resistência X de cada parafuso 
segue uma distribuição com média p = 155 e desvio padrão o = 20. 

H,: os parafusos são de A, isto é, a média q = 145 e o desvio padrão o = 12. 

Finalmente, vamos indicar por RC a região correspondente aos valores menores que 150, ou 
seja, 

RC=(ty €l |y<150). 


Com as notações indicadas acima, a probabilidade de se cometer cada um dos erros pode ser 
escrita: 


P(erro 1) = P(X E RC|H, é verdadeira) = q 


P(erro II) = P(X & RCIH, é verdadeira) = P. 


Z 


Quando H, for verdadeira, isto é, os parafusos forem de B, sabemos do TLC que X terá 
distribuição aproximadamente normal, com média 155 e desvio padrão igual a 20/25 =4,isto é 
X - N(155,16). 
Denotando por Z a v.a. com distribuição N(0,1), temos 
P(errol)=P(XERC|H, Everdadeira) 
=P(X <150/X - N(155,16)) 


De modo análogo, quando H, for a alternativa verdadeira, teremos que a v.a. X é tal que, 
aproximadamente, 


X - N(145; 5,76). 
Teremos, então, 
P(erro )= P(X &ÉRC|H, Everdadeira ) 
= P(X > 150/X - N(145; 5,76)) 


50 - 
-P(2> 4] =P(Z>2,08)=0,01876= 1,88% =p. 
Observando esses dois resultados, notamos que, com a regra de decisão adotada, estaremos 
cometendo o erro de tipo I com maior probabilidade do que o erro de tipo II. De certo modo, essa 
regra de decisão privilegia a afirmação de que os parafusos são de A. No Quadro 12.1, 


ilustramos as consequências que podem advir da regra de decisão adotada. 


Quadro 12.1 Resumo do teste H,: 1 = 155,H,: HU = 145, com RC = |-00, 150]. 


Decisão 
Origem Real dos RC qu 
Parafusos Tão >X 
A 1'>B 
Erro tipo II 
| A Sem erro | E =1,88% 
Erro tipo 1 
' a = 10,56% fi 


Desse quadro, podemos notar que, se os parafusos forem realmente de B (segunda linha) e a 
amostra tiver média superior a 150 (segunda coluna), diremos que são de B, e não cometeremos 
erro algum. Por outro lado, se a média x for inferior a 150 (primeira coluna), devemos dizer que 
são de A, e estaremos cometendo um erro cuja probabilidade nesse caso é de 10,56%. De modo 
análogo, teremos uma interpretação para o caso de os parafusos serem realmente de A (primeira 
linha). 

Para cada regra de decisão adotada, isto é, se escolhermos um valor x, em vez de 150 no 
Quadro 12.1, apenas as probabilidades a e B mudarão. Se x, for escolhido menor que 150, 
notamos que o diminuirá e B aumentará. Logo, deve existir um ponto em que o seja igual a B, ou 
seja, uma regra de decisão em que a probabilidade de errar contra A seja a mesma que errar 
contra B. Mostre que esse ponto é x. = 148,75, e nesse caso o = B = 5,94%. 

Do exposto acima constatamos que, escolhido um valor de Xo podemos achar as 
probabilidades a e 8 de cometer cada tipo de erro. Mas também podemos proceder de modo 
inverso: fixar um dos erros, digamos a, e encontrar a regra de decisão que irá corresponder à 
probabilidade de erro de tipo I igual a q. 

Por exemplo, fixemos x em 5%, e vejamos qual a regra de decisão correspondente. Temos 

5%=P(errol)=P(X <x|X - N(155,16)) 
=P(Z<-1,645), 


mas da transformação para a normal padrão sabemos que 


As Reiss 


ou seja, x.= 148,42. Então, a regra de decisão será: 
Se x for inferior a 148,42, dizemos que o lote é de A; caso contrário, dizemos que é de B. 
Com essa regra, a probabilidade do erro de tipo II será 
B = P(erroll)=P(X >148,42]X —(145;5,76)) 
= P(Z >1,425)= 7,93% 
Veja a ilustração na Figura 12.2. 


Figura 12.2 Ilustração dos erros de tipo 1 e II para o Exemplo 12.1. 
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Esse segundo tipo de procedimento é bastante utilizado, porque usualmente a decisão que 
devemos tomar não é apenas entre duas possíveis populações. Os parafusos poderiam ser 
produzidos por outros países além daqueles citados e, portanto, com outras características quanto 
à resistência média. Suponha, ainda, que interessa à indústria fazer uma proposta apenas no caso 
de o parafuso ser de origem B. Qual a regra de decisão que deve adotar? 

A hipótese que nos interessa agora é: 


Ho: os parafusos são de origem B (nu = 155 e 0 = 20). 


Caso essa não seja a hipótese verdadeira, a alternativa é muito mais ampla e pode ser expressa 
como: 


H,: os parafusos não são de origem B (y e o desconhecidos). 


Aqui não podemos especificar os parâmetros sob a hipótese alternativa H,, pois se não forem 
de origem B, os parafusos podem ser de vários outros países, cada um com suas próprias 
especificações. Alguns países podem ter técnicas mais sofisticadas de produção e, portanto, 
produzir com resistência média superior a 155. Outros, como no exemplo dado, com resistência 
menor. A especificação da hipótese alternativa depende muito do grau de informação que se tem 
do problema. Por exemplo, vamos admitir que a indústria do país B para esse caso seja a mais 
desenvolvida, e nenhum outro país possa produzir uma resistência média superior à dela. Então, 
nossa hipótese alternativa seria mais explícita: 

H,: os parafusos não são de origem B (nu < 155 e o qualquer). 


Isso significa que só iremos desconfiar de H, se x for muito menor do que 155. Ou seja, a 
nossa regra de decisão deverá ser semelhante à vista anteriormente. Como os parâmetros sob a 
hipótese alternativa são muitos, a melhor solução para construir a regra de decisão é fixar a, a 
probabilidade do erro de tipo I (rejeitar H, quando ela for verdadeira). Se fixarmos novamente a 
= 0,5, e nesse caso a regra de decisão depende apenas das informações de H,, a regra de decisão 
será a mesma anterior: 

Se x for superior a 148,42, diremos que o lote é de origem B; caso contrário, diremos que não 
é de origem B. 


Com essa regra de decisão e com a hipótese alternativa mais ampla, não podemos encontrar , 
pois não temos um único parâmetro q como alternativa e nada sabemos sobre o. Então, não 
podemos controlar o erro de tipo II. As implicações dessa regra de decisão estão resumidas na 
Figura 12.3 e no Quadro 12.2. 


Figura 123 Teste H,: 1=155vsH:H < 155, com RC= hoo; 148,42]. 


— ra 
x 
Quadro 12.2 Resumo do teste H,: 1 = 155, H1.: | < 155, com RC = |-00, 148,42]. 
Decisão 
Origem Real dos RC = 
Parafusos 148,42 x 
não B | B 
B | ErrotipoLa=5% | Sem erro 
não B | Sem erro | | ErrotipolL B=? 


Podemos reescrever as hipóteses nessa situação da seguinte maneira: 
Ho n= 155 
Heps 55 


O cálculo de B depende do valor de p, que não é especificado. Mas podemos considerar a 
seguinte e importante função. 


Definição. A função característica de operação (função CO) do teste acima é definida como 
B(p) = P(aceitar H,Jp) = P(X > 148,42/p). 


Ou seja, B(p) é a probabilidade de aceitar H,, considerada como uma função de q. 

Usualmente, considera-se a função rp) = 1 - B(n), que é a probabilidade de se rejeitar H,, 
como função de pn. Essa função é chamada função poder do teste e será estudada abaixo com 
certo detalhe. Nesses casos consideramos que o é o mesmo para todos os valores de p. 

Admitamos, agora, que não exista razão alguma para acreditarmos que a resistência média dos 
parafusos de B seja maior ou menor do que a de outros países. Isso irá nos levar a duvidar que os 
parafusos não são de B, se a média observada for muito maior ou muito menor do que 155. Esta 
situação corresponde à seguinte hipótese alternativa: 

H,: os parafusos não são de origem B (uy £ 155). 


Aqui, a regra de decisão deverá indicar dois pontos x, e x,. tais que: 

Se x estiver entre x, e x,, diremos que os parafusos são de origem B; se x estiver fora do 
intervalo, diremos que não são de origem B. 

Fixado a, a probabilidade do erro 1, existirão muitos valores que satisfazem a essa condição. 
Daremos preferência âquelas soluções x, e x. simétricas em relação à média. Veja a Figura 
12.4. 


Voltando ao nosso problema, e fixado o em 5%, temos 


c2* 


0,05=P(emo1)=P(X <x, ouX>x,|X - N(155,16)) 
=P(Z<-1,960uZ>1,96), 
e daqui encontramos 
-1,96=(X -155)/4=X =147,16 


196=(% -155)/4=% =162,84. 


Figura 124 Teste H,: 1 = 155vsH;: | É 155. 


x 
A 155 LX. 
A | q 
RC RC 


Portanto, nesse caso, a região de rejeição da hipótese H, é (veja o Quadro 12.3) 
RC=(xeR|X<147,160u%>162,84). 
Do apresentado nesta seção, vemos que, dependendo do grau de informação que se tem do 


problema, podemos ter regras de decisão unilaterais ou bilaterais. Na seção seguinte, iremos dar 
os passos para a construção de um teste de hipótese. 


Quadro 12.3 Resumo do teste H,: 1 = 155,H:| É 155, com RC = |-90, 147,16]P [162,84, +00. 


Erro tipo I, « = 5% 


Problemas 


1. Para decidirmos se os habitantes de uma ilha são descendentes da civilização A ou B, iremos proceder do seguinte modo: 

(i) selecionamos uma amostra de 100 moradores adultos da ilha, e determinamos a altura média deles; 
(ii) se essa altura média for superior a 176, diremos que são descendentes de B; caso contrário, são descendentes de A. 

Os parâmetros das alturas das duas civilizações são: 

A:H=175e0 = 10; 

B:H=177e0= 10. 

Definamos: Erro de tipo I — dizer que os habitantes da ilha são descendentes de B quando, na realidade, são de A. 

Definamos: Erro de tipo II — dizer que são de A quando, na realidade, são de B. 
(a) Qual a probabilidade do erro de tipo I? E do erro de tipo II? 
(b) Qual deve ser a regra de decisão se quisermos fixar a probabilidade do erro de tipo I em 5%? Qual a probabilidade do erro 
de tipo II, nesse caso? 


(c) Se OA = 5, como ficariam as respostas de (b)? 
(d) Quais as probabilidades do erro de tipo II, nas condições da questão (b), se a média lp = 178? E Up — 180? E gp = 181º 
Coloque num gráfico os pares (Hp, P(erro Hs). 


2. Fazendo o teste 


Ho: | = 1.150 (0 = 150) contra H,: q = 1.200 (o = 200), 


en = 100, estabeleceu-se a seguinte região crítica: 
RC = [1.170, +. 
(a) Qual a probabilidade Ot de rejeitar Hy quando verdadeira? 
(b) Qual a probabilidade B de aceitar Hy quando H, é verdadeira? 
(c) Qual deve ser a região crítica para que O = B? 
3. Nas situações abaixo, escolha como hipótese nula, Hg, aquela que para você leva a um erro de tipo I mais importante. 


Descreva quais os dois erros em cada caso. 
(a) O trabalho de um operador de radar é detectar aeronaves inimigas. Quando surge alguma coisa estranha na tela, ele deve 
decidir entre as hipóteses: 
1. está começando um ataque; 
2. tudo bem, apenas uma leve interferência. 
(b) Num júri, um indivíduo está sendo julgado por um crime. As hipóteses sujeitas ao júri são: 
1. o acusado é inocente; 
2. o acusado é culpado. 
(c) Um pesquisador acredita que descobriu uma vacina contra resfriado. Ele irá conduzir uma pesquisa de laboratório para 
verificar a veracidade da afirmação. De acordo com o resultado, ele lançará ou não a vacina no mercado. As hipóteses que 
pode testar são: 
1. a vacina é eficaz; 
2. a vacina não é eficaz. 
4. Se, ao lançarmos três vezes uma moeda, aparecerem 3 coroas, decidimos rejeitar a hipótese de que a moeda é “honesta”. 


Quais as probabilidades de erro de tipo I e erro de tipo II, se p = 2/3? 
5. A variável X, custo de manutenção de um tear, pode ser considerada como tendo distribuição normal de média 1 e desvio 


padrão 20 unidades. Os valores possíveis de |1 podem ser 200 ou 210. Para verificar qual dos dois valores é o mais provável, 
usar-se-á uma amostra de 25 teares. Defina: 


(a) Uma hipótese a ser testada. 
(b) Uma regra de decisão e encontre as probabilidades dos erros de tipo I e II. 


12.3 Procedimento Geral do Teste de Hipóteses 


A construção de um teste de hipóteses, para um parâmetro populacional, pode ser colocada do 
seguinte modo. Existe uma variável X associada a dada população e tem-se uma hipótese sobre 
determinado parâmetro 6 dessa população. Por exemplo, afirmamos que o verdadeiro valor de 6 
é 09. Colhe-se uma amostra aleatória de elementos dessa população, e com ela deseja-se 
comprovar ou não tal hipótese. 

Como já vimos anteriormente, iniciamos nossa análise explicitando claramente qual a hipótese 
que estamos colocando à prova e a chamamos de hipótese nula, e escrevemos 

Ho: O = 0. 

Em seguida, convém explicitar também a hipótese que será considerada aceitável, caso H, seja 
rejeitada. A essa hipótese chamamos de hipótese alternativa, e a sua caracterização estatística irá 
depender do grau de conhecimento que se tem do problema estudado. A alternativa mais geral 
seria 

H,: 020, 

Poderíamos, ainda, ter alternativas da forma 

H,:0<90uH:0>0, 
dependendo das informações que o problema traz. 

Qualquer que seja a decisão tomada, vimos que estamos sujeitos a cometer erros. Para facilitar 
a linguagem, introduzimos as definições: 


Erro de tipo I: rejeitar a hipótese nula quando essa é verdadeira. Chamamos de a a 
probabilidade de cometer esse erro, isto é, 

o = P(erro do tipo 1) = P(rejeitar H,|H, é verdadeira). 

Erro de tipo II: não rejeitar H, quando H, é falsa. A probabilidade de cometer esse erro é 
denotada por 3, logo 

B = P(erro do tipo II) = P(não rejeitar H,|H, é falsa). 

O objetivo do teste de hipóteses é dizer, usando uma estatística ,, se a hipótese H, é ou não 
aceitável. Operacionalmente, essa decisão é tomada por meio da consideração de uma região 
crítica RC. Caso o valor observado da estatística pertença a essa região, rejeitamos H,; caso 
contrário, não rejeitamos H,. Esta região é construída de modo que P(, & RCIH, é verdadeira) 
seja igual a q, fixado a priori. RC recebe o nome de região crítica ou região de rejeição do teste. 
Um fato importante a ressaltar é que a região crítica é sempre construída sob a hipótese de H, ser 
verdadeira. A determinação do valor de B já é mais difícil, pois usualmente não especificamos 
valores fixos para o parâmetro sob a hipótese alternativa. Mais adiante trataremos dessa situação, 
ao considerarmos o poder de um teste. 

A probabilidade aq de se cometer um erro de tipo I (ou de primeira espécie) é um valor 
arbitrário e recebe o nome de nível de significância do teste. O resultado da amostra é tanto mais 
significante para rejeitar H, quanto menor for esse nível a. Ou seja, quanto menor for q, menor é 
a probabilidade de se obter uma amostra com estatística pertencente à região crítica, sendo pouco 
verossímil a obtenção de uma amostra da população para a qual H, seja verdadeira. Usualmente, 
o valor de q é fixado em 5%, 1% ou 0,1%. 

A fixação do valor de a envolve uma questionável arbitrariedade. Neste sentido, há um modo 
alternativo de se proceder, que será considerado na Seção 12.8. 


12.4 Passos para a Construção de um Teste de Hipóteses 


Vimos, nas seções anteriores, o procedimento que se deve usar para realizar um teste de 
hipóteses. Daremos abaixo uma sequência que pode ser usada sistematicamente para qualquer 
teste de hipóteses. 

Passo 1. Fixe qual a hipótese H, a ser testada e qual a hipótese alternativa H.. 

Passo 2. Use a teoria estatística e as informações disponíveis para decidir qual estatística 
(estimador) será usada para testar a hipótese H,. Obter as propriedades dessa estatística 
(distribuição, média, desvio padrão). 

Passo 3. Fixe a probabilidade a de cometer o erro de tipo I e use este valor para construir a 
região crítica (regra de decisão). Lembre que essa região é construída para a estatística definida 
no passo 2, usando os valores do parâmetro hipotetizados por H,. 

Passo 4. Use as observações da amostra para calcular o valor da estatística do teste. 

Passo 5. Se o valor da estatística calculado com os dados da amostra não pertencer à região 
crítica, não rejeite H,; caso contrário, rejeite H,. 

Procuraremos, sempre que fizermos teste de hipóteses, distinguir bem esses cinco passos. 
Finalmente um comentário sobre H, e o erro de tipo I. Devemos tomar como H, aquela hipótese, 
que, rejeitada, conduza a um erro de tipo I mais importante de evitar. Vejamos um exemplo 


devido a Neyman (1978). Suponha um experimento para se determinar se um produto A é ou não 


cancerígeno. Após realizado o teste, podemos concluir: (i) A é cancerígeno ou (ii) A não é 
cancerígeno. Cada uma dessas conclusões pode estar errada e temos os dois tipos de erro já 
mencionados, dependendo de qual hipótese seja H,. Do ponto de vista do usuário do produto, a 


hipótese a ser testada deve ser 

Ho: A é cancerígeno, 
pois a probabilidade de erro na rejeição dessa hipótese, se ela for verdadeira, deve ser um valor 
muito pequeno. Outros exemplos estão contidos no Problema 3. 


12.5 Testes sobre a Média de uma População com Variância 
Conhecida 


Vejamos, agora, uma aplicação dos cinco passos definidos na seção anterior, para testar a 

hipótese de que a média de uma população | seja igual a um número fixado W,, supondo-se a 
variância o? dessa população conhecida. 
Exemplo 12.2 Uma máquina automática para encher pacotes de café enche-os segundo uma 
distribuição normal, com média | e variância sempre igual a 400 g?. A máquina foi regulada para 
H = 500 g. Desejamos, periodicamente, colher uma amostra de 16 pacotes e verificar se a 
produção está sob controle, isto é, se y = 500 g ou não. Se uma dessas amostras apresentasse 
uma média x = 492 g, você pararia ou não a produção para regular a máquina? 

Vejamos como testar essa hipótese. 

Passo 1. Indiquemos por X o peso de cada pacote; então, X - N(y, 400). E as hipóteses que nos 
interessam são: 

H, p= 5008, 

H,;: p 5008, 
pois a máquina pode desregular para mais ou para menos. 
Passo 2. Pela afirmação do problema, o? = 400 será sempre a mesma; logo, para todo |, a média X 
de 16 pacotes terá distribuição N(p, 400/16), de modo que o desvio padrão (ou erro padrão) de X 
é 0; = 5. Em particular, se H, for verdadeira, X - N(500,25). 


Passo 3. Vamos fixar a = 1%; pela hipótese alternativa, vemos que H, deve ser rejeitada quando X 


for muito pequena ou muito grande (dizemos que temos um teste bilateral). Portanto, nossa 
região crítica será como a da Figura 12.5. 


Figura 12.5 Região crítica para o teste H,: | = 500 vs H,: | É 500 do Exemplo 12.2. 
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Da tabela da curva normal padronizada obtemos que 


2 =-2,588=(X, -500)/5=>X, = 487,1, 
2=2,58=(X, -500)/5=>%, =512,9. 


Segue-se que a região crítica é 


RC=(xeR|X<487,10ux>512,9. 
Passo 4. A informação pertinente da amostra é sua média, que nesse caso particular é x, = 492. 


Passo 5. Como x, não pertence à região crítica, nossa conclusão será não rejeitar H,. Ou seja, O 
desvio da média da amostra para a média proposta por H, pode ser considerado como devido 
apenas ao sorteio aleatório dos pacotes. 


A situação analisada não é muito realista: conhecer a variância da população. O caso mais 
geral, de média e variância desconhecidas, será tratado na Seção 12.10. 


6. Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal, com desvio padrão 2 kg. A 
diretoria de uma firma que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo 
per capita fosse menor que 8 kg. Caso contrário, continuaria a fabricá-lo. Foi realizada uma pesquisa de mercado, tomando- 
se uma amostra de 25 indivíduos, e verificou-se que be é :=180 Kg, em que X; representa o consumo mensal do i-ésimo 
indivíduo da amostra. 


(a) Construa um teste de hipótese adequado, utilizando O = 0,05, e com base na amostra colhida determine a decisão a ser 
tomada pela diretoria. 


(b) Qual a probabilidade B de se tomar uma decisão errada se, na realidade, a média populacional for 1 = 7,8 kg? 
(c) Se a diretoria tivesse fixado O = 0,01, a decisão seria a mesma? (Justifique sua resposta.) 
(d) Se o desvio da população fosse 4 kg, qual seria a decisão, com G = 0,05? (Justifique sua resposta.) 
7. A associação dos proprietários de indústrias metalúrgicas está muito preocupada com o tempo perdido com acidentes de 


trabalho, cuja média, nos últimos tempos, tem sido da ordem de 60 horas/homem por ano e desvio padrão de 20 
horas/homem. Tentou-se um programa de prevenção de acidentes, após o qual foi tomada uma amostra de nove indústrias e 
medido o número de horas/homens perdidas por acidente, que foi de 50 horas. Você diria, no nível de 5%, que há evidência 
de melhoria? 


8. O salário médio dos empregados das indústrias siderúrgicas de um país é de 2,5 salários mínimos, com um desvio padrão de 
0,5 salários mínimos. Uma indústria é escolhida ao acaso e desta é escolhida uma amostra de 49 empregados, resultando um 
salário médio de 2,3 salários mínimos. Podemos afirmar que esta indústria paga salários inferiores à média nacional, com o 
nível de 5%? 


9. Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros que fabrica apresenta-se abaixo de 23 mg 
por cigarro. Um laboratório realiza 6 análises desse índice, obtendo: 27, 24, 21, 25, 26, 22. Sabe-se que o índice de nicotina 
se distribui normalmente, com variância igual a 4,86 mg?. Pode-se aceitar, no nível de 10%, a afirmação do fabricante? 


12.6 Teste para Proporção 
Vamos usar os passos descritos na Seção 12.4 para mostrar a construção do teste para 
proporções. 


Passo 1. Temos uma população e uma hipótese sobre a proporção p de indivíduos portadores de 
certa característica. Esta hipótese afirma que essa proporção é igual a certo valor p,. Então, 
Ho: P = Po 
O problema fornece informações sobre a alternativa, que pode ter uma das três formas abaixo: 
(DH,: p* po (teste bilateral); 


(ii) H,: p > p, (teste unilateral à direita); e 
(ii) H,: p < p, (teste unilateral à esquerda). 


Passo 2. Como vimos na Seção 10.9, a estatística p, a proporção amostral, tem uma distribuição 
aproximadamente normal, a saber, 
. p(i=p) 
- N| pp ——— |, 
p [o E 


Passo 3. Fixado um valor de a, devemos construir a região crítica para p, sob a suposição de que o 
parâmetro definido por H, seja o verdadeiro. Ou seja, podemos escrever 


n 


B E n(p 


e, consequentemente, teremos a região crítica da Figura 12.6, supondo a alternativa (i) acima; 
sendo que d=Z(1-0/2)po(1-ps)/n e Z(p) é o p-quantil da normal padrão. 

O quarto e quinto passos irão depender da amostra, e o procedimento está descrito no exemplo 
seguinte. 


Figura 12.6 Região crítica para o teste H,:p = pyvsH,: p É pp. 
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Exemplo 12.3 Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu 
programa especial da última segunda-feira. Uma rede competidora deseja contestar essa 
afirmação e decide usar uma amostra de 200 famílias para um teste. Qual deve ser o 
procedimento adotado para avaliar a veracidade da afirmação da estação? No passo 4 a seguir 
daremos o resultado da amostra, pois é importante ficar claro que esse resultado não deve 
influenciar a escolha da alternativa. 


Passo 1. Vamos colocar à prova a afirmação da estação, isto é, 
Ho: p = 0,60. 
Sabemos que, se essa hipótese não for verdadeira, espera-se uma proporção menor, nunca 
maior. A estação divulgaria o máximo possível. Isso nos leva à hipótese alternativa 
H,:p<0,60. 
Passo 2. À estatística a ser usada é ), a proporção de 200 famílias que assistiram ao programa na 
última segunda-feira, e da teoria sabemos que 


Passo 3. Fixaremos o = 0,05 e sob a suposição que H, seja verdadeira, 
p = N(0,60, 0,24/200), 
o que irá fornecer a região crítica (veja a Figura 12.7) 
RC=(p E l|p<0,544). 


Figura 12.7 Região crítica para o teste HO: p = 0,60 vs H1: p < 0,60 do Exemplo 12.3. 


0,544 Ê 


De fato, devemos achar o valor ,, tal que P(p < p,) = 0,05, e usando a aproximação normal 
acima, teremos 


nz < deseo =0,05, 


v0,24/200 
o que implica 
ds 
o valor -1,645 sendo obtido da normal padronizada. Segue-se que ?. = 0,544, correspondendo à 
região crítica acima. 


Passo 4. Admitamos que, da pesquisa feita com as 200 famílias, obtivemos 104 pessoas que 
estavam assistindo ao programa. A proporção da amostra será p = 104/200 = 0,52. 


Passo 5. Do resultado do passo anterior, vemos que 0,52 & RC; portanto, somos levados a 
rejeitar H,. Isto é, há evidências que a audiência do programa de segunda-feira não foi de 60%, 


mas inferior a esse número. 


10. Uma pessoa gaba-se de adivinhar qual será o resultado do lance de uma moeda, mas é preciso que os presentes não o 
perturbem com pensamentos duvidosos. Para testar tal capacidade, lançou-se uma moeda perfeita 6 vezes, e o adivinhador 
acertou 5. Qual seria sua conclusão? 

11. O consumidor de um certo produto acusou o fabricante, dizendo que mais de 20% das unidades fabricadas apresentam 
defeito. Para confirmar sua acusação, ele usou uma amostra de tamanho 50, em que 27% das peças eram defeituosas. Mostre 
como o fabricante poderia refutar a acusação. Utilize um nível de significância de 10%. 

12. Um fabricante garante que 90% dos equipamentos que fornece a uma fábrica estão de acordo com as especificações exigidas. 
O exame de uma amostra de 200 peças desse equipamento revelou 25 defeituosas. Teste a afirmativa do fabricante, nos níveis de 
5% e 1%. 

13. Os produtores de um programa de televisão pretendem modificá-lo se for assistido regularmente por menos de um quarto dos 
possuidores de televisão. Uma pesquisa encomendada a uma empresa especializada mostrou que, de 400 famílias entrevistadas, 
80 assistem ao programa regularmente. Com base nos dados, qual deve ser a decisão dos produtores? 


12.7 Poder de um Teste 


Vimos que, na construção de um teste de hipóteses, procuramos controlar o erro de tipo 1, 
fixando sua probabilidade de ocorrência, a, e construindo a região crítica de modo que P(RCIH, 
verdadeira) = q. Ou seja, admitindo que H, seja verdadeira, estamos admitindo conhecido(s) o(s) 
parâmetro(s) que define(m) a distribuição da estatística usada no teste. 


Por outro lado, a probabilidade do erro do tipo II, na maioria dos casos, não pode ser 
calculada, pois a hipótese alternativa usualmente especifica um conjunto de valores para o 
parâmetro. Voltemos ao exemplo da seção anterior. 


Exemplo 12.2 (continuação) No exemplo da máquina de encher pacotes de café, a v.a. X, que 
descrevia o peso de cada pacote, tinha uma distribuição normal com média p e variância 400, de 
modo que a média amostral X- N(500, 25), sob a hipótese H,. Esse fato foi utilizado para 
determinar a região crítica RC = (x E || x < 487,1 ou x > 512,9) e nossa regra de decisão para 
verificar se a máquina estava ou não produzindo sob controle foi: 


Sex € RA, a máquina está sob controle; sex € RC, não está, 


em que RA é a região de aceitação do teste, isto é, o complementar de RC em relação a le, 
portanto, dada no nosso caso por RA = (x € 487,1 <x < 512,9). 
A probabilidade 8 do erro de tipo II não pode ser calculada, a menos que se especifique um 
valor alternativo para n. Segue-se que a função característica de operação do teste é dada por 
B(u) = P(aceitar Hs /u) = P(X ERA) 
= P(487,1s X <512,9)ju). 


Por exemplo, se a máquina se desregular para q = 505, teremos 
B(505)=P(XERA[u =505)=P(-3,58s Z <1,58)=94,28%, 


usando o fato que agora X- N(505, 25). Lembre-se de que supomos que 0? = 400, sempre! 

Para qualquer outro valor do parâmetro n podemos encontrar o respectivo valor de B, para a 
regra de decisão adotada. No Quadro 12.4, temos as decisões que podemos tomar e suas 
respectivas implicações. 


Quadro 12.4 Decisões possíveis para o teste H,: | = 500 versus H,: 1 É 500. 


Valor real do parâmetro 


Decisão 
Ho: pn = 500 H,: p*500 
P(RA |H)=B 
depende de valor alternativo de p 
P(RC|H)=1-B 
depende de valor alternativo de p 


a máquina está sob controle: = 500 P(RA | H9) = 0,99 


a máquina não está sob controle: q * 500 | P(RC | H,) = 0,01 


Observe, por exemplo, que 1 - B(500) = P(rejeitar Hoy = 500) = a = 0,01. 

A quantidade 1 - B(yn) é usualmente chamada de poder ou potência do teste, e é a 
probabilidade de rejeitar a hipótese H,, dado um valor qualquer de q, especificado ou não pela 
hipótese alternativa, e será denotado por r(). No nosso exemplo, 

n(u)= P(rejeitar H,|u)=P(X <487,10uX >512,9/u). 

Na Tabela 12.1, temos alguns valores de B(n) e de (|), para diferentes valores de |, e, na 
Figura 12.8, a representação gráfica da determinação dessa probabilidade. Observe que quanto 
maior for a distância entre o valor fixado em Hy(u = 500) e o valor atribuído para a hipótese 
alternativa, maior será a probabilidade de tomar a decisão correta. Na Figura 12.9, temos o 
gráfico de r(|) para os valores de q da Tabela 12.1. 


Tabela 12.1 Valores de [B(|1) e TIP), usando a regra de decisão RC = (x E |x< 487,1 0ux > 512,9). 


Verdadeiro valor de 1 
— > > ——— im tem% Pay (emv%) 
À esquerda de 500 | À direita de 500 

500 500 1,0 99,0 
498 502 17 98,3 
495 505 5,7 94,3 
492 508 16,4 83,6 
490 510 28,1 71,9 
487 513 51,0 49,0 
485 515 66,3 33,7 
480 520 21 7,9 
475 525 99,2 0,8 


As seguintes propriedades de (hn) são facilmente verificadas: 
(1) m1(-00) = m(+oo) = 1, 
(ii) 11500) = og; 
(iii) 1º decresce para p < 500 (isto é, dr/dy < O para | < 500) e 7 cresce para q > 500 (isto é, 
drv/dyp > 0, para q > 500). 
Vemos que rn) indica a probabilidade de uma decisão correta, para as diversas alternativas 
do parâmetro e pode ser usada para decidir entre dois testes para uma mesma hipótese. 


Figura 12.8 Determinação do poder para o teste do Exemplo12.2. 


Á N 1-B=49% 


Figura 12.9 Curva de poder para o Exemplo 12.2. 


480 490 500 510 520 nu 


Exemplo 12.4 Se, no Exemplo 12.2, a amostra colhida fosse de 100 pacotes em vez de 16, e 
mantivéssemos o mesmo nível de significância a = 1%, a nova região crítica seria 
RC=[xeR|X<494,8 ou X>505,2). 


Construindo a função poder para esse teste, obtemos a curva tracejada na Figura 12.9. 
Verifique essas afirmações. 

Observando as duas curvas na Figura 12.9, notamos que para todos os valores sob a hipótese 
alternativa, a probabilidade de uma decisão correta é maior para amostras de tamanho 100 do que 
de tamanho 16. Dizemos, nesse caso, que o teste baseado em amostras de tamanho 100 é mais 
poderoso do que o teste baseado em amostras de tamanho 16. Esse fato está de acordo com a 
intuição de que um teste com amostras maiores deve levar a melhores resultados. 

De modo geral, se quisermos testar 

H,:0=0, 
H,:0*0,, 
e determinada a RC do teste, baseada na estatística ,, podemos dar a seguinte definição geral. 


Definição. A função poder (ou potência) do teste de H, contra H, é definida por 
n(0) = Pl, E RC |), 


ou seja, é a probabilidade de rejeitar a hipótese nula, como função de 6. 

O gráfico dessa função é semelhante àqueles da Figura 12.9, e r(0) tem as propriedades (i)- 
(iii) acima, substituindo 500 por 8,. 

Se tivermos hipóteses alternativas unilaterais, da forma H,: 06< 0, ou H,: O > 0,, obteremos os 
gráficos da Figura 12.10. 


Figura 12.10 Curvas de poder para alternativas unilaterais. 


(8) 4 n(8)4 


Nos exemplos anteriores, fixamos o tamanho da amostra, n, e o nível de significância, q. 
Suponha que queiramos determinar o tamanho da amostra e os limites da RC, para alcançarmos 


dado poder para determinado valor do parâmetro. No Exemplo 12.2, poderíamos, por exemplo, 
fixar r1(510) = 0,80 e 7(500) = 0,05 (o nível de significância). Dados esses valores, podemos 
determinar n e a RC. Veja o Problema 30. 


14. Suponha que estejamos testando Hg: p = 0,5 contra H4: p É 0,5, e que, para uma amostra de tamanho n = 10, decidimos pela 
região crítica RC = (0, 1, 2,8,9, 104. 

(a) Determine o nível de significância O. 

(b) Calcule o poder do teste para p = 0,2, 0,4, 0,6, 0,8. Faça um gráfico do poder como função de p. 

(c) Qual o poder do teste para p = 0,5? 
15. Sendo X o custo de manutenção de um tear, sabe-se que X — N(JH, 400). Para testar a hipótese Ho: 1 = 200, contra a 
alternativa H,: | > 200, será usada uma amostra de 25 teares. 

(a) Fixando-se O = 5%, encontre a correspondente RC. 

(b) Atribuindo-se valores arbitrários para |, esboce a função poder do teste. 


(c) Para que valores de [1 o poder será maior do que 50%? 


12.8 Valor-p 


O método de construção de um teste de hipóteses, descrito nas seções anteriores, parte da 
fixação do nível de significância q. Pode-se argumentar que esse procedimento pode levar à 
rejeição da hipótese nula para um valor de a e à não rejeição para um valor menor. Outra 
maneira de proceder consiste em apresentar a probabilidade de significância ou valor-p do teste. 
Os passos são muito parecidos aos já apresentados; a principal diferença está em não construir a 
região crítica. O que se faz é indicar a probabilidade de ocorrer valores da estatística mais 
extremos do que o observado, sob a hipótese de H, ser verdadeira. 


Exemplo 12.5 Voltemos ao Exemplo 12.3, em que 
Ho: p = 0,60. 

Como vimos, admitindo essa hipótese verdadeira, » - N(0,60; 0,24/200). Colhida a amostra 
obtivemos » , = 104/200 = 0,52. Portanto, podemos calcular qual a probabilidade de ocorrerem 
valores de p mais desfavoráveis para H, do que esse. É evidente que quanto menor for p, maior 
será a evidência contra H,: p = 0,60. Assim, calculemos 

dee 
0,24 


P(p<0,52/p=0,60)= ? < 


=P(Z<-2,30)=0,01=1%. 

Esse resultado mostra que, se a audiência do programa fosse de 60% realmente, a 
probabilidade de encontrarmos uma amostra de 200 famílias com 52% ou menos de audiência é 
de 1%. Isso sugere que, ou estamos diante de uma amostra rara de ocorrer, 1 em 100, ou então a 
hipótese formulada não é aceitável. Nesse caso, somos levados a essa segunda opção, ou seja, os 
dados da amostra sugerem que a hipótese H, deve ser rejeitada. 


O procedimento está ilustrado na Figura 12.11. O valor-p do teste será o = 0,01. 


Figura 12.11 Determinação do valor-p para o Exemplo 12.5. 


p 

Exemplo 12.6 Um antibiótico A traz em sua bula a seguinte citação: “Nas broncopneumonias, a 
ação anti-inflamatória de A é colocada em evidência pelo estudo dos parâmetros ventilatórios em 
duplo-cego contra placebo. Durante o tratamento com A pode-se observar uma melhora 
significativa em relação ao placebo, da capacidade vital (p < 0,05) e o VEMS(p < 0,001) e do 
débito respiratório máximo (p < 0,001)”. 

Esse exemplo ilustra o uso cada vez mais difundido em muitas áreas aplicadas do conceito de 
valor-p. As afirmações do tipo “p < 0,05” acima referem-se a esse conceito. Vale a pena 
comentar um pouco sobre “estudos duplo-cego”, mencionados acima. Nesse tipo de estudo, um 
número n de indivíduos é dividido em dois grupos de tamanhos aproximadamente iguais; a 
seleção dos indivíduos que vão pertencer a cada grupo é aleatória. Os indivíduos de um grupo 
recebem o tratamento (o antibiótico 4, no caso), e os do outro grupo recebem placebo (uma 
substância inóqua). Os pesquisadores que acompanham o experimento não sabem quem recebeu 
tratamento e quem recebeu placebo, o mesmo acontecendo com os pacientes, daí o nome duplo- 
cego. 

Podemos considerar probabilidades de significância bilaterais. Um procedimento é tomar o 
valor-p bilateral igual a duas vezes o valor-p unilateral. Esta prática é razoável quando a 
distribuição da estatística do teste, sob H,, for simétrica. 


Exemplo 12.7 Uma companhia de serviços de ônibus intermunicipais planejou uma nova rota para 
servir vários locais situados entre duas cidades importantes. Um estudo preliminar afirma que a 
duração das viagens pode ser considerada uma v.a. normal, com média igual a 300 minutos e 
desvio padrão 30 minutos. As dez primeiras viagens realizadas nessa nova rota apresentaram 
média igual a 314 minutos. Esse resultado comprova ou não o tempo médio determinado nos 
estudos preliminares? 


Passo 1. Indicando por X a duração de cada viagem e por np = E(X), queremos testar 
H,: p = 300, 
H,: p é 300. 

Passo 2. Amostras de dez viagens terão média X - N(y, 02/10). 


Passo 3. Sob a hipótese de que H, é verdadeira, e pelo fato de o? ser conhecido (o = 30), teremos 
X - N(300, 900/10). 
Passo 4. Como o valor observado x, = 314, podemos encontrar a probabilidade de ocorrerem 


amostras com valores de X mais extremos do que esse: 


314-300 


P(X>314)=P(Z> ne 


] = P(Z>1,48)= 0,07. 


Como a distribuição de X é normal, portanto simétrica, tomamos o = 0,14. Nosso problema 
consiste em decidir se essa probabilidade corresponde ou não à chance de ocorrer um evento 
raro. Por ser uma probabilidade não muito pequena, podemos concluir que não existe muita 
evidência para rejeitar H,. Assim, os estudos preliminares parecem estar corretos. 


Um problema que pode ocorrer com o procedimento acima, de dobrar a probabilidade, é que o 
valor de a pode ser maior do que um. Por isso, às vezes, é preferível anunciar o valor do valor-p 
unilateral e a direção segundo a qual a observação afasta-se de H,. No exemplo, o resultado 
indica que a chance de ocorrerem amostras com médias iguais ou superiores a 314 é 7%, que é 
um valor ainda não pequeno. Para outro método, ver o Problema 43. 

Se indicarmos genericamente por a o valor-p, rejeitaremos H, para aqueles níveis de 
significância a maiores do que o. No Exemplo 12.7, rejeitaremos H,, por exemplo, se q = 0,10, 
mas não a rejeitaremos se a = 0,05 ou a = 0,01. Ou seja, se o nível descritivo for muito pequeno, 
como o caso a < 0,01 do Exemplo 12.6, há evidências de que a hipótese não seja válida. Como 
vimos nesse exemplo, a probabilidade de significância é muitas vezes denotada por p na 
literatura (p-value). 

Em nosso procedimento de testar uma hipótese estamos usando uma escala de evidências 
sugerida por Fisher (1954). Suponha que estejamos testando H, contra H, e, como vimos, 
rejeitamos H, se o valor-p a for “bastante pequeno”. A Tabela 12.2, extraída de Efron e Gous 
(1997), ilustra a escala de Fisher, contra H, (ou a favor de H,). 


Tabela 12.2 Escala de significância de Fisher. 


valor-p 0,10 0,05 0,025 0,01 0,005 0,001 


Natureza da evidência | marginal | moderada | substancial | forte | muito forte | fortíssima 


Assim, um valor de a = 0,01 indica uma evidência forte contra a validade de H,, a = 0,05 
indica uma evidência moderada etc. É interessante notar que Fisher tomou como ponto de 
referência o valor 0,05: valores do valor-p menores do que 0,05 indicam que devemos rejeitar a 
hipótese nula. As considerações feitas por Fisher referiam-se a testes do qui-quadrado (veja o 
Capítulo 14). 


16. Suponha que queiramos testar Ho: | = 50 contra H,: | > 50, em que [1 é a média de uma normal N(|H, 900). Extraída uma 


amostra de n = 36 elementos da população, obtemos x = 52. Calcule o valor-p a do teste. 

17. Os novos operários de uma empresa são treinados a operarem uma máquina, cujo tempo X (em horas) de aprendizado é 
anotado. Observou-se que X segue de perto a distribuição N(25, 100). Uma nova técnica de ensino, que deve melhorar o tempo de 
aprendizado, foi testada em 16 novos empregados, o quais apresentaram 20,5 horas como tempo médio de aprendizado. Usando o 
valor-p, você diria que a nova técnica é melhor que a anterior? 


12.9 Teste para a Variância de uma Normal 


Um teste sobre a variância desconhecida de uma variável, com distribuição normal, irá usar a 
distribuição qui-quadrado, introduzida na Seção 7.7. 

Considere a média amostral X e a variância amostral S?, ambas obtidas de uma amostra de 
tamanho n, (X,, ..., X,) de X - N(y, 07). A soma 
E E) e (Eae 


o ao 


terá distribuição x*(n), pois cada (X, - n)/0 terá distribuição N(0,1). Logo, se definirmos 


=, 5(M 4), (12) 


vemos que 


o? 


.n6 &(X-n) 
Y= 5( E (12.2) 
tem distribuição x?(n). Observe que o estimador 62, é muito parecido com o estimador 6º, 


definido em (11.6), com p tomando o lugar de X. É muito importante conhecer a distribuição de 
Ss" (x,-X), para se ter a distribuição de S?, que será usada no teste desta seção. Note 


a 1=1 


inicialmente que 


ede5 (Xx,-X)=0, vem que 


Dn) =5(8,-2) en(Z-n). (12.3) 
ad ia] 
Dividindo ambos os membros por o?, e reescrevendo (12.3) de forma conveniente, teremos 
- 13 = 2 
(x -utoa(x-XY (Nn(X-u 
(Si Sama SME, (12.4) 
sa ) dm N ) q J 
O primeiro membro da Expressão (12.4) tem distribuição x?(n), como vimos acima. O último 
termo de (12.4) tem distribuição x(1). Seria, então, razoável supor que o primeiro termo do 
segundo membro tenha distribuição x?(n - 1). A comprovação desse fato exige recursos fora do 
alcance deste livro, mas podemos resumir o resultado da seguinte maneira. 
» Z,) uma amostra aleatória simples retirada de uma população N(0,1). 


Teorema 12.1 Seja (Ls E 


Então: 
(i) Z tem distribuição N(0,1/n); 
(ii) as variáveis Ze 5". (Z, -Z)'são independentes; e 


(iii) >” (Z,-Z) tem distribuição x*(n - 1). 
Corolário 12.1 A variável aleatória (n - 1)S?/0? tem distribuição x?(n - 1). 


Prova. De fato, 


2 
dai Sua) =5( | -S(2-2). 
bastando escrever (X,-X)/o=(X,-u)/o-(X -u)/o. 

A Expressão (12.4) e a própria definição de x? garantem uma propriedade muito útil: a soma 
de duas v.a. independentes, cada uma com distribuição x, é uma v.a. também com distribuição 
x: 

0 (p)+ 0 (g)=0"(p +49). 

Voltemos ao nosso problema original. Queremos testar 

H,:0? =; 


H,:S? 0) 
Nossas suposições são que X, - N(n, 0º), i= 1,...,ne os X, são independentes. A estatística do 


teste será, sob H,, 


(= ada tn), (12.5) 


(ef 
Como temos um teste bilateral, a região crítica será da forma RC= 0,72] u [x2.+), tal que 
P(RERC|H,)=P(0<y)<y? ou y>y2)=a, 
sendo a o nível de significância do teste, fixado a priori. 


, E ham ] 2 
Observado o valor s?, da estatística S2, obteremos o valor 3 = de . Sexy), E RC, 


0 


rejeitamos H,; caso contrário, aceitamos H,. 


Exemplo 12.8 Uma das maneiras de manter sob controle a qualidade de um produto é controlar sua 
variabilidade. Uma máquina de encher pacotes de café está regulada para enchê-los com média 
de 500 g e desvio padrão de 10 g. O peso de cada pacote X segue uma distribuição N(p, 0º). 
Colheu-se uma amostra de 16 pacotes e observou-se uma variância de S? = 169 g?. Com esse 
resultado, você diria que a máquina está desregulada com relação à variância? 

Estamos interessados em testar, então, 

H,:o? =100, 
H,:o? 100. 

A estatística para realizar o teste é (12.5), com n = 16. Fixado o nível de significância a em 
5%, teremos da Tabela IV que a região crítica é dada por RC = (xy): 0 <y) < 6,262 ou x? > 
27,488). Veja a Figura 12.12. O valor observado da estatística é 

2 Ar-1sg (15)(169) 
X* > * im 
Como x2, É RC, somos levados a aceitar H,, isto é, a máquina está sob controle quanto à 


variância. 


=25,35. 


Figura 12.12 Região crítica para o teste do Exemplo 12.8. 


27,488 


— 
xH15) 


A construção do IC(o?; y) é feita a partir da expressão 


pa < ui <a)-n (12.6) 


que permite obter a seguinte desigualdade: 


(n-1)S? ca E ui 1)S2 (12.7) 


2 


x X 


que será o IC procurado. Veja a Figura 12.13. 


Figura 12.13 Valores críticos para a construção de um intervalo de confiança para a variância. 


x Ho xa 


Exemplo 12.9 Os dados abaixo referem-se às vendas diárias, em reais, durante uma semana, de 
carros de uma revendedora. Construir um IC(o?; 90%). 
Vendas: 253, 187, 96, 450, 320, 105. 

Inicialmente, calculamos a variância amostral, que é s2, = 18.460; em seguida, os valores x?, e 

x, que satisfaçam (12.6): 
P(1,145 < x(5) < 11,070) = 0,90. 
Substituindo em (12.7) obtemos 
IC(o2; 0,90) = [8.338; 80.611]. 


18. De uma população X - N(50, 100) retira-se uma amostra de dez elementos e calculam-se os valores de 6º» e S?. Encontre os 
valores pedidos abaixo, com a maior precisão possível. 

(a) Se P(62. > a) = 10%, encontre o valor de a. 

(b) Sabendo-se que P(S? < a) = 5% e P(S? > b) = 5%, encontre a e b. 

(c) P(S? < 163,16) = O, encontre O. 

(d) P(S? > 100) = Oy, encontre O. 

(e) P(S? < 18) = O, encontre 

(f) Se o valor observado de S? foi 180, qual a probabilidade de encontrar uma amostra que produza um S? maior do que o 

observado? 


19. Observou-se a produção mensal de uma indústria durante vários anos, verificando-se que ela obedecia a uma distribuição 
normal, com variância 300. Foi adotada uma nova técnica de produção e, durante 24 meses, observou-se a produção mensal. 


Após esse período, constatou-se que x = 10.000 e s? = 400. Há razões para se acreditar que a variância mudou, ao nível de 20%? 
20. Numa linha de produção, é muito importante que o tempo gasto numa determinada operação não varie muito de empregado 
para empregado. 
(a) Que parâmetro estatístico poderia ser usado para avaliar esse fato? Por quê? 
(b) Se 11 empregados apresentam os tempos abaixo para realizar essa operação, qual seria a estimativa para a parâmetro 
acima? 
125 135 115.120 150130 
125 145 125 140 130 


12.10 Teste sobre a Média de uma Normal com Variância 
Desconhecida 


Vimos, na Seção 12.5, como testar a média de uma normal, supondo que a variância seja 
conhecida. Comentamos que essa não é uma suposição realista, logo iremos supor agora que 
temos uma v.a. X, com distribuição normal, com média p e variância o? desconhecidas. 

No Capítulo 7, introduzimos a distribuição t de Student. Veremos, a seguir, como ela pode ser 
usada para testar hipóteses sobre | nessa situação. 

Consideremos a estatística 


X-u 
PT a (12.8) 


Inicialmente, dividamos o numerador e denominador pelo desvio padrão o da população, e 
teremos 


((Vn(X -u)/o) 
(S/6) 
O numerador z=(Vn(X-u))/otem distribuição N(O, 1), como já foi visto. O quadrado do 


denominador pode ser escrito como 


a fm-1= 7 


o? n-=1º 
em que Y = (n - 1)S?/02. Mas, como foi visto na seção anterior, se os X, forem normais, Y tem 
distribuição x(n - 1); logo, a estatística (12.8) é o quociente entre uma v.a N(0, 1) e a raiz 
quadrada de uma v.a x?(n - 1), dividida pelo número de graus de liberdade, e pelo Teorema 7.1 
temos que 


VAZ 0) (9-1), (12.9) 


Observe que Z e Y são independentes, pois X e S? são independentes, pelo Teorema 12.1 (ii). 
Estamos, agora, em condições de testar as hipóteses 

Ho:u=Ho 

H,:u * Ho 


a RE =), (12.10) 


que sabemos agora ter uma distribuição t de Student com (n - 1) graus de liberdade. Fixado o 
valor de a, podemos usar a Tabela V e encontrar o valor t,, tal que P([T|<t)=1 - o. Veja a 
Figura 12.14. 


Figura 12.14 Valores críticos para o teste t. 
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Colhida a amostra de n indivíduos, calculamos os valores x, e s?, das estatísticas X e S?, 
respectivamente, e depois o valor 1 =vn(X% -uo)/so de T. Se o valor dessa estatística for inferior a - 
t.. ou superior a t,, rejeita-se H,. Caso contrário, aceita-se H.,. 

Para a construção de intervalos de confiança, temos que 


na a uy 


da qual segue o intervalo de confiança 


C(uy)=X +, F (12.11) 


muito parecido com aquele da variância conhecida. 


Exemplo 12.10 Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina. 
Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. No nível de 5%, 
os dados refutam ou não a afirmação do fabricante? 


Passo 1. As hipóteses aqui são: 
H,:4u=30, 
H:u>30. 


Passo 2. Supondo que X, a quantidade de nicotina por cigarro, tenha distribuição N(y, 07), a 
estatística 
v25(X -30) 

E] 


terá distribuição t(24). 
Passo 3. Por ser um teste unilateral, devemos procurar o valor t, tal que 
P(T> to) = 0,05. 


Da Tabela V, obtemos t, = 1,711, ou seja, a região crítica para a estatística T é RC = [1,711; 
+oo[. 
Passo 4. O valor observado da estatística é 
in PE a 
Passo 5. Como t, pertence à região crítica, rejeitamos H,, ou seja, há evidências de que os cigarros 
contenham mais de 30 g de nicotina. 
Outra maneira de proceder é calcular o valor-p, ou seja, 
a«=P(T>tyHo) = P(T>2,5/H,) = 0,01. 
Esse valor pequeno de q leva à rejeição de H,. 
Para construir um IC(p; 0,95), verificamos na Tabela V que o valor t, = 2,064 e, portanto, 
IC(u;0,95)=31,5+(2,064)3/v25, 
ou seja, 
IC(p; 0,95) =]30,26; 32,74[. 

Antes de encerrar este capítulo cabe uma observação. Quando aceitamos uma hipótese, 
estamos concluindo que temos algum conhecimento sobre a distribuição da variável de interesse. 
Já quando rejeitamos a hipótese, a distribuição da variável não fica especificada. A construção de 
intervalos de confiança desempenha um papel importante nessa situação. Ressaltamos, também, 


que temos usado a expressão “aceitamos” a hipótese, quando o mais correto talvez fosse “não 
rejeitamos” a hipótese. 


Problemas 


21. Da população Xá N(50, 100) retirou-se uma amostra casual simples de tamanho n = 10, calculando-se o valor deX,Seo 
respectivo valor de t. 


(a) Se p(x -50|< 1s/ÃO) = 90% , encontre o valor de t. 


(b) Se X = 48e Ss? = 120, qual a probabilidade de encontrar um valor de t menor que o produzido por essa amostra? 


(c) Se S? = 120, calcule a P(|X - 50] < 2). 
22. O tempo médio, por operário, para executar uma tarefa, tem sido 100 minutos, com um desvio padrão de 15 minutos. 
Introduziu-se uma modificação para diminuir esse tempo, e, após certo período, sorteou-se uma amostra de 16 operários, 
medindo-se o tempo de execução de cada um. O tempo médio da amostra foi 85 minutos, e o desvio padrão foi 12 minutos. Estes 
resultados trazem evidências estatísticas da melhora desejada? Em caso afirmativo, estime o novo tempo médio de execução. 
(Apresente as suposições teóricas usadas para resolver o problema.) 


23. Estamos desconfiados de que a média das receitas municipais per capita das cidades pequenas (0 - 20.000 habitantes) é 
maior do que a das receitas do estado, que é de 1.229 unidades. Para comprovar ou não essa hipótese, sorteamos dez cidades 
pequenas, e obtivemos os seguintes resultados: 1.230; 582; 576; 2.093; 2.621; 1.045; 1.439; 717; 1.838; 1.359. 

Obs.: Para facilitar os cálculos, informamos que a soma das observações é 13.500, e a soma dos quadrados das observações é 


22.335.650 (13.500? = 182.250.000). 


(a) Mostre que o teste de hipótese usado, com O = 0,05, levará à aceitação de que a média das cidades pequenas é igual à do 
estado. 
(b) Você não acha estranha essa conclusão quando observa que a média da amostra obtida é bem maior do que a média do 
estado? Como você explicaria isso? 
24. Deseja-se estimar qual a porcentagem média da receita familiar gasta com alimentação pelos moradores de uma grande vila 
industrial. Para isso, selecionou-se uma amostra de 16 famílias, que apresentou os seguintes resultados: 
4144354234224242 
38 62 29 63 38 45 48 40 
(a) Dê um IC de 95% para a porcentagem média de todas as famílias de moradares da vila. 
(b) Que suposição você fez para responder a pergunta anterior? 


12.11 Problemas Suplementares 


25. A precipitação pluviométrica anual numa certa região tem desvio padrão O = 3,1 e média desconhecida. Para os últimos 9 
anos, foram obtidos os seguintes resultados: 30,5; 34,1; 27,9; 35,0; 26,9; 30,2; 28,3; 31,7; 25,8. 
(a) Construa um teste de hipóteses para saber se a média da precipitação pluviométrica anual é maior que 30,0 unidades. 
Utilize um nível de significância de 5%. 
(b) Discuta o mesmo problema, considerando O desconhecido. 


(c) Supondo que, na realidade, 1 = 33,0, qual a probabilidade de tirarmos uma conclusão errada? 
26. Supõe-se que determinado tipo de indústria deva ter, em média, 30 empregados. Para testar tal hipótese, colhe-se uma 
amostra de 50 indústrias, cujo resultado está abaixo. Caso rejeite a hipótese, dê um intervalo de confiança para a verdadeira 


média (suponha que s2=0 A, 


Nº de empregados | Frequência 
25-35 8 
35 |- 45 10 
45-55 13 
55 —- 65 10 
65-75 E] 


27. Uma fábrica de automóveis anuncia que seus carros consomem, em média, 11 litros por 100 km, com desvio padrão de 0,8 
litro. Uma revista resolve testar essa afirmação e analisa 35 automóveis dessa marca, obtendo 11,3 litros por 100 km como 
consumo médio (considerar distribuição normal). O que a revista pode concluir sobre o anúncio da fábrica, no nível de 10%? 

28 Um dos maiores problemas de uma grande rede de vendas a varejo é a adequação do estoque declarado com o real existente. 
Decidiu-se fazer a verificação por meio de procedimentos amostrais. Indicando por X o total em unidades monetárias de cada 
produto em estoque, verificou-se que X — N(|, 400). Serão sorteados 4 produtos. O total X de cada um será verificado e calcular- 


se-á a média X, que será a estatística de decisão. Numa determinada filial, o valor declarado de ]1 é 50. Havendo falta, esse 
parâmetro deve ser 45; no caso de excesso, 58. 

(a) Defina H, e H,. 

(b) Descreva os erros do tipo I e II. 

(c) Fixando O = 10%, qual a regra de decisão para julgar se o estoque está correto ou não? 


(d) Calcule o erro p. 


(e) Qual o significado de O e B nesse problema? 


29. Seja X uma v.a. com distribuição binomial, com n = 15. Considere Ho: p 2 0,5 contra H,:p < 0,5, com RC = (0,1,2). 
(a) Calcule a probabilidade do erro de tipo I. 


(b) Calcule a probabilidade do erro de tipo II quando p = 0,3. 
(c) Esboce o gráfico do poder do teste. 


30. O custo X de manutenção de teares segue uma distribuição normal, X — N(H, 400). Durante muito tempo, o parâmetro [1 tem 
sido adotado como igual a 200. Suspeita-se que esse parâmetro aumentou, e só nos interessa saber se o novo parâmetro superior a 


210. Assim, queremos planejar um teste em que O = 5% (quando 1 = 200) e B = 10% (quando U = 210). 

(a) Qual deve ser o tamanho da amostra? 

(b) Qual a RC nesse caso? 
31. O número médio diário de clientes de um posto de gasolina tem sido 250, com um desvio padrão de 80 clientes. Durante uma 
campanha de 25 dias, em que os clientes recebiam um brinde, o número médio de clientes foi 280, com um desvio padrão de 50. 
Você diria que a campanha modificou a distribuição do número de clientes do posto? Descreva as suposições feitas para a 
resolução do problema. 
32. A receita média, em porcentagem, dos quase 600 municípios de um estado tem sido 7%. O governo pretende melhorar esse 
índice e, para isso, está estudando alguns incentivos. Para verificar os efeitos desses incentivos, sorteou 10 cidades e estudou 
quais seriam as porcentagens investidas neles. Os resultados foram, em porcentagem, 8, 10, 9, 11, 8, 12, 16,9, 12, 13. 
Admitindo-se que esses números realmente venham a ocorrer, os dados trazem evidência de melhoria? Caso altere a média do 
estado, dê um intervalo de confiança para a nova média. 


33. Para o problema anterior, construa IC(O 2. 90%) e descreva as suposições consideradas para obtenção da resposta. 
34. A prefeitura de uma cidade quer estimar a proporção p dos moradores favoráveis à mudança do horário comercial, com o 
intuito de economizar combustível. Essa proporção deverá ser estimada com um erro máximo de 5%, a um nível de 90% de 
confiança. 

(a) Que tamanho deverá ter a amostra se a proporção p esperada deve estar entre 20% e 50%? (Justifique a resposta.) 

(b) Numa amostra de 400 moradores, 160 foram favoráveis à mudança; qual seria o intervalo de confiança para p, nesse caso, 

com Y = 0,95? 
35. Numa pesquisa realizada com 2.000 proprietários de carros na cidade de São Paulo, 800 responderam que pretendem mudar 
de carro no decorrer do próximo ano. Dê um IC de 90% para a proporção de todos os proprietários de carros de São Paulo que 
pretendem mudar de carro no próximo ano. 
36. Um fabricante de um certo tipo de aço especial afirma que seu produto tem um severo serviço de controle de qualidade, 
traduzido pelo desvio padrão da resistência à tensão, que não é maior do que 5 kg por cm?, Um comprador, querendo verificar a 
veracidade da afirmação, tomou uma amostra de 11 cabos e submeteu-a a um teste de tensão. Os resultados foram os seguintes: x 
= 263es? = 48. Estes resultados trazem alguma evidência contra a afirmação do fabricante? Use O = 0,05. 
37. Um escritório de investimento acredita que o rendimento das diversas ações movimentadas por ele foi de 24%. Mais ainda, a 
nova estratégia definida deve garantir uma maior uniformidade nos rendimentos das diversas ações. No passado, o desvio padrão 
do rendimento era da ordem de 5%. Para verificar as duas hipóteses, tomaram-se 8 empresas ao acaso, obtendo-se os seguintes 
rendimentos (dados em %): 23,6; 22,8; 25,7; 24,8; 26,4; 24,3; 23,9 e 25. Quais seriam as conclusões? 


38. Sendo X o número de sucessos em n = 10 provas de Bernoulli, queremos testar Hg: p = 0,6. 
(a) Se o teste for unilateral e rejeitarmos H, para valores pequenos de X, determine a se o valor observado de X for 3. 
(b) Determine q se o teste for bilateral, na situação de (a), isto é, X = 83. 
39. Considere a situação do problema anterior e suponha que o valor observado seja X = 6. O que acontece no caso (b) do 


problema anterior? O resultado X = 6 suporta ou não Ho? 


12.12 Complementos Metodológicos 


1. Valor-p bilateral. Vimos no texto um procedimento para determinar a no caso bilateral. Outra possibilidade é fazer as 
probabilidades nas duas caudas complementares em termos da distância à média (ou mediana) da distribuição sob H. Assim, se x 
for o valor observado de X e m for a média da distribuição, colocamos 

a=P(X>)+P(X<m-(x-m)), 
se x estiver na cauda superior e 


a=P(X<x)+P(X>m+(m-x), 


se x estiver na cauda inferior. 


Calcule q usando esse critério para os Problemas 38 e 39. 
2. Hipóteses gerais. Nossos testes sempre foram da forma 


H,:0=0,,H,: 00, 
para algum parâmetro 0,ou hipóteses alternativas unilaterais (0 < Ú ou B > 95). Mas podemos ter testes da forma 

H,:0<9,H,:0>0, 
Neste caso, as probabilidades dos erros de tipo I e tipo II seriam 

o = P(rejeitar H,|9 < 05), 
B = P(não rejeitar H,|9 > 05), 

de modo que tanto OX como B seriam funções do valor do parâmetro 6: 0 < Do no caso de Q e B > Do no caso de p. Nesta 
situação, o nível de significância do teste não é igual Ot. Definimos o nível de significância como a probabilidade máxima do erro 
de tipo 1, para O < 0,. 
Se Hç for uma hipótese simples, 0 = O o nível de significância e a probabilidade de erro de tipo I coincidem. Nos problemas 
em que a função poder do teste, (0), for estritamente crescente, o máximo da probabilidade em questão ocorre para 0 = Do, e 
novamente o nível de significância coincide com O. 


Verifique que isso também é verdade para as hipóteses Ho: 9> Do, H: 6 < % e a função poder estritamente decrescente. 


Capítulo 13 


Inferência para Duas Populações 


13.1 Introdução 


Neste capítulo, abordaremos o tópico importante de comparar duas populações Pe P,, 
baseados em dados fornecidos por amostras dessas populações. Como vimos, uma grande parte 
das técnicas usadas em Estatística supõe que as variáveis aleatórias envolvidas tenham 
distribuição normal. Alguns testes que trataremos envolverão a normal. Contudo, se essa 
suposição de normalidade for violada, procedimentos mais “robustos” têm de ser utilizados, e 
veremos exemplos de tal situação. 

Uma pergunta que aparece frequentemente em Ciência é a seguinte: o método A é melhor do 
que o B? Em termos estatísticos, ela equivale a comparar dois conjuntos de informações, 
resultantes das medidas obtidas da aplicação dos dois métodos a dois conjuntos de objetos ou 
indivíduos. 

Uma das dificuldades que enfrentamos é a de caracterizar adequadamente a “igualdade” ou 
“equivalência” de duas populações. Por exemplo, suponha que estamos interessados em saber se 
alunos de duas regiões, A e B, tiveram desempenhos iguais em um mesmo teste nacional. Mais 
ainda, suponha que tenhamos os resultados do teste para “todos os alunos” das duas regiões, isto 
é, conhecemos as duas populações. Suponha que cálculos posteriores revelem que as médias e 
desvios padrões das duas populações sejam iguais, isto é, W, = Hp € O, = Op. Será que isso 
equivale a dizer que os desempenhos nas duas regiões são equivalentes? Se uma análise mais 
cuidadosa não for feita, poderemos ser levados a responder afirmativamente a essa questão. 
Entretanto, observando a Figura 13.1, vemos que é possível ter duas distribuições com os 
mesmos parâmetros acima, mas formas bastante distintas. 


Figura 13.1 Distribuições das populações A e B, com |1, = 1,=4,0,=0,= 1,16. 


IXb- a) 


+ ma = 
0 a HH, b 


Esse fato nos remete à necessidade de também mencionarmos a forma da distribuição. 
Especificada a forma, a igualdade dos parâmetros que identificam a curva implica a igualdade ou 
coincidência das duas populações. É bem pouco provável que um mesmo fenômeno obedeça a 
formas de distribuições distintas, como no exemplo da Figura 13.1. Seguir uma mesma 
distribuição, porém com parâmetros distintos, é mais verossímil. Como a normal é um modelo 


importante e seguido por muitas variáveis de interesse prático, estaremos admitindo essa forma, 
a não ser quando uma análise dos dados nos diga o contrário. 
Neste capítulo, trataremos de várias situações, que passamos a descrever. 


1. Inferências para duas médias: amostras independentes 

Aqui temos dados na forma de duas amostras, extraídas independentemente de cada 
população. É muito comum em experimentos do tipo “controle” versus “tratamento”, nos quais o 
interesse principal é verificar o efeito desse último. O caso típico é aquele de comparar uma nova 
droga com uma padrão, usadas para o tratamento de uma doença. 

Exemplo 13.1 

(a) Um curso de Estatística é ministrado pela televisão para um grupo de alunos e ao vivo para 
outro grupo. Queremos testar a hipótese de que o curso ao vivo é mais eficaz que o curso 
por meio da televisão. 

(b) Queremos comparar o efeito de duas rações, A e B, sobre o crescimento de porcos. 

Dois grupos de porcos em crescimento foram alimentados com as duas rações e após cinco 
semanas verificam-se quais foram os ganhos de peso dos porcos dos dois grupos. 

(c) 20 canteiros foram plantados com uma variedade de milho. Em dez deles um novo tipo de 
fertilizante é aplicado e nos outros um fertilizante padrão. Examinando-se as produções dos 
dois canteiros, queremos saber se há diferenças significativas entre as produções. 

Na maioria das vezes fica claro o que chamamos de controle e tratamento. No exemplo (c) 
acima, os canteiros tratados com o novo fertilizante seriam o grupo de tratamento, enquanto os 
demais, tratados com o fertilizante usual, constituiriam o grupo de controle. Mas nos exemplos 
(a) e (b) essa distinção é apenas convencional. 

Formalmente, o modelo para o problema das duas amostras é o seguinte: as v.a. X,, ..., X, 
representam as respostas do grupo de controle e são consideradas v.a. independentes, com a 
mesma distribuição, P,; Y,, ..., Y, representam as respostas do grupo de tratamento e são v. a. 
independentes, com a mesma distribuição, P,. Além disso, X,, ..., X,, Y,, ..., Y, são independentes 
entre si. 

A hipótese a ser testada é 


HP, =P, (13.1) 


ou seja, queremos testar a homogeneidade das populações de onde as amostras foram extraídas. 
H, é chamada hipótese de homogeneidade. 

O significado de (13.1) dependerá muito do interesse do pesquisador em considerar qual 
“tipo” de igualdade implicará a coincidência das duas distribuições. Admitamos que tanto P, 
como P, sigam uma distribuição normal, ou seja, P, - N(n, 02) e P, - N(p,, 02). Na 
Figura 13.2, temos as quatro situações possíveis. Observando os gráficos da Figura 13.2 não 
temos dúvidas em reconhecer que as duas populações são iguais no caso (a) e diferentes no caso 
(d). Já nos outros dois casos, podem existir situações em que elas possam ser consideradas iguais 
ou não. Por exemplo, uma pesquisa para verificar se o salário médio da região P, é o mesmo da 
região P, aceita como resposta verdadeira tanto a situação (a) como a (b). Outra pesquisa para 
verificar se dois processos produzem peças com a mesma qualidade em termos de dispersão 
aceita como verdadeiras as situações (a) ou (c). 

Assim, a estratégia para comparar duas populações, por meio de seus parâmetros, envolve 


suposições sobre a forma das distribuições, para depois testar médias e variâncias. É comum 
estarmos interessados em testar apenas que P, e P, difiram em localização (ou posição), isto é, a 


alternativa a H, é que P, esteja à direita de P,, ou o contrário, mas que ambas tenham a mesma 
dispersão (caso |, é |, e 0, = 0, da figura). Nesse caso, H, será equivalente a 


HA =D, (132) 
com A=WH,-H,. 


Figura 13.2 (a) |l1 = 12, 01 = 02 (b) |! = |p2, 01 É O2(c) 1 É [2,01 = 02 (d) 1 É |2,01 É 02. 


Os testes t de Student e de Wilcoxon, descritos a seguir, são apropriados para esse tipo de 
situação. O teste t é aplicável quando P, e P, supostas são normais, com médias pe np +, 
respectivamente, e com a mesma variância. O teste de Wilcoxon aplica-se para P, e P, quaisquer, 
mas suponha-se que a escala de medidas seja pelo menos ordinal. A análise fica mais fácil 
quando a P, e P, são atribuídas distribuições de variáveis contínuas. Discutiremos a razão desta 
suposição adicional. 

Outro caso de interesse é aquele em que queremos testar se as duas médias são iguais, mas as 
variâncias são diferentes. Na Figura 13.1, as duas curvas teriam dispersões diferentes ao redor de 
suas médias. Então, um teste preliminar de igualdade de variâncias seria necessário. O teste t de 
Student para o caso de populações normais será apresentado neste capítulo. 

A hipótese (13.1) ou (13.2) nos diz que não há efeito do tratamento. A alternativa usual para 
H, é que o efeito do tratamento é o de aumentar as respostas. Isto é, P, gera valores maiores que 
P, com maior frequência. Mas pode ocorrer o contrário: diminuir as respostas. Por exemplo, o 
“tratamento” visa a diminuir o tempo para executar determinada tarefa. 


2. Inferências para duas médias: amostras dependentes 

Quando se comparam as médias de duas populações, pode ocorrer uma diferença significativa 
por causa de fatores externos não controlados. Por exemplo, no caso do Exemplo 13.4 abaixo, 
poderia ocorrer que um dos grupos tivesse vendedores mais experientes e habilidosos do que o 
outro. Logo, a diferença seria devido a esses fatos, e não ao mérito real da técnica de vendas. Um 
modo de contornar esse problema é coletar as observações em pares, de modo que os dois 
elementos de cada par sejam homogêneos em todos os sentidos, exceto no que diz respeito ao 
fator que queremos comparar. 


Por exemplo, no caso do Exemplo 13.1 (a), para testar os dois métodos de ensino, poderíamos 
usar n pares de gêmeos, sendo que um elemento de cada par recebe aulas pela TV e outro ao 
vivo. Esse procedimento pretende controlar o maior número possível de fatores externos que 
possam afetar o aprendizado. Se houver diferença no aprendizado, essa dever-se-á realmente ao 
método. 

Esse procedimento também é usado quando observações das duas amostras são feitas no 
mesmo indivíduo, por exemplo, medindo uma característica do indivíduo antes e depois de ele 
ser submetido a um tratamento. 

O teste t de Student para observações pareadas (ou emparelhadas), supondo normalidade, é 
apropriado para essas situações. 


3. Inferências para duas variâncias: amostras independentes 

Como vimos no item 1, podemos testar se duas amostras independentes provêm de duas 
populações com variâncias iguais, desconhecidas. Se essas variâncias forem diferentes, o teste 
tem de ser modificado. Esse teste, sob a suposição de normalidade das duas populações, usa uma 
estatística que tem uma distribuição especial, chamada F de Snedecor. 

Finalizando esta seção, ressaltamos que poderemos ter mais do que duas amostras, e técnicas 
semelhantes podem ser desenvolvidas. Veja o Capítulo 15. 


13.2 Comparação das Variâncias de Duas Populações Normais 


A situação que vamos considerar nesta seção envolve a utilização da distribuição F, estudada 
na Seção 7.7. A descrição a seguir é importante. 

Uma das distribuições amostrais mais usadas, e que corresponde a uma distribuição F, resulta 
do seguinte problema. Suponha que temos duas amostras independentes, de tamanhos n, e n,, 
retiradas de duas populações normais com a mesma variância 02. Indiquemos os estimadores de 
o? obtidos das amostras por S?, e S2,, respectivamente. Já vimos que 


-1)S2 
veta ya(m 1) 
n, -1)S2 
pon DS pon), 
e portanto a v.a. 
U 
E ae (m-1, m-1). (13.3) 


Essa variável será usada no teste desta seção. 

Consideremos, agora, uma amostra X,, ..., X, de uma população com distribuição N(p,, 02,) e 
uma amostra Y,, ..., Y, de uma população com distribuição N(jp,, 02,). Suponhamos que as duas 
amostras sejam independentes. 

Queremos testar 


Ho: 02,=02,=0? 


+» 2 2 
H, 0º, 0º. 


Chamemos de S?, e S2, as variâncias amostrais respectivas. De (13.3) e sob a suposição de H, 
ser verdadeira, isto é 02, = 0?,, temos que 


W=S2/S2,- F(n-1,m-1).(13.4) 
Fixado q, encontramos dois números f, e f,, da Tabela VI, tais que 
P(WERC)-=P(W<fouW>f)-a. 
Os valores f, e f, são determinados de modo que P(W < f) = 0/2 = P(W > f). Na prática, 


consideramos o quociente (13.4) de tal sorte que S?,/S2, > 1. 


Colhidas as amostras de n e m indivíduos, respectivamente, das duas populações, calculamos 
os valores observados s?,, e s2,, e O Valor observado de W, ou seja, w, = S2,0/S2»o: 


Se w, pertencer à região crítica, rejeitamos H,; caso contrário, a aceitamos. 
Exemplo 13.2 Queremos verificar se duas máquinas produzem peças com a mesma homogeneidade 


quanto à resistência à tensão. Para isso, sorteamos duas amostras de seis peças de cada máquina, 
e obtivemos as seguintes resistências: 


Máquina A: | 145 | 127 | 136 | 142 | 141 | 137 


Máquina B: | 143 | 128 | 132 | 138 | 142 | 132 


As hipóteses a serem testadas são: 

Hç: 02,=02,=0º 
HH: 02,£0p. 

Sob a suposição de normalidade das medidas de resistência à tensão, para as duas máquinas, 
temos que a v.a. W, definida por (13.4), tem uma distribuição F(5,5). Fixando a = 0,10 e 
consultando a Tabela VI, teremos 

RC = 10, (5,05)![ U 15,05, +oo[. 

Das amostras encontramos s?, = 40 e s2, = 37, portanto w, = 1,08. Como esse valor não 
pertence à região crítica, aceitamos H,, ou seja, as máquinas produzem com a mesma 
homogeneidade quanto à variabilidade. 

Caso tivéssemos rejeitado a hipótese de igualdade das variâncias, seria conveniente obter um 
intervalo de confiança para o quociente das duas variâncias. De (13.3) podemos escrever, quando 
g*, * 0º, 

Silo? Ul(n-1) 
W = 52/02 “vm-1) F(n-1,m-1), 
e para um dado y, O < y < 1, podemos encontrar dois valores f, e f,, tais que 
Bh Sn=1,m=1)8[) =. 


Dessa igualdade, segue-se que, com probabilidade y, 


f S2 Os 
< o * mi fo, 
1 S2 2 2 


ou seja, o IC(0?,/02,; y) será dado por 


Exemplo 13.3 Suponha que para outras seis medidas para as máquinas A e B do Exemplo 13.2 
tivéssemos S?, = 85 e S2, = 8. Como w, = 85/8 = 10,62, rejeitaríamos H,. Então, o IC dado por 
(13.5) ficaria, com y = 0,90, 


1 8 oh 
5,0585 “o! 


<5,05 a E 
ou seja, 
0,019< e <0,475. 
Invertendo-se, obtemos, também, 
210< SÉ. <52,6 
que indica a variação possível, no nível fixado, da razão entre as duas variâncias. Note que, sob 


H, temos 02,/0?, = 1, que não pertence a esse intervalo. 


1. Da população X - N(50, 100) retirou-se uma amostra casual simples de n = 10 elementos. Da população Y - N(60, 100) 
retirou-se uma amostra casual simples de m = 6 indivíduos, independente da primeira. Obtemos as variâncias amostrais Ca e 
ar respectivamente. 

(a) Encontre o valor de a, tal que P(S?,/ Ss <a)= 95%. 


(b) Encontre o valor de b, tal que P(S2,/S?, > b) = 95%. 

2. Por que em (13.3) as v.a. Ue V são independentes? 

3. Uma das maneiras de medir o grau de satisfação dos empregados de uma mesma categoria quanto à política salarial é por 
meio do desvio padrão de seus salários. A fábrica A diz ser mais coerente na política salarial do que a fábrica B. Para 
verificar essa afirmação, sorteou-se uma amostra de 10 funcionários não especializados de A, e 15 de B, obtendo-se os 
desvios padrões sy = 1.000 reais e sg = 1.600 reais. Qual seria a sua conclusão? 

4. Deseja-se comparar a qualidade de um produto produzido por duas fábricas. Essa qualidade será definida pela uniformidade 
com que o produto é produzido em cada fábrica. Tomaram-se duas amostras, uma de cada fábrica, medindo-se o 
comprimento dos produtos (o resumo dos resultados está no quadro abaixo). A qualidade das duas fábricas é a mesma? Caso 
a sua resposta seja negativa, dê um intervalo de confiança para indicar a intensidade dessa desigualdade. 


Estatísticas | Fábrica A | Fábrica B 


Amostra 21 17 
Média 21,15 21,12 
Variância 0,0412 0,1734 


13.3 Comparação de Duas Populações: Amostras Independentes 


Nesta seção, estudaremos o caso em que temos duas amostras independentes, X,,..., Xe Y, 
» Y,» de duas populações P, e P,, respectivamente. 

Estaremos interessados em comparar as médias dessas populações, verificando se elas podem 
ser consideradas iguais ou não. No caso de populações normais, teremos, preliminarmente, de 
usar o que aprendemos na seção anterior, para testar se as variâncias de P, e P, são iguais. 

Consideraremos duas situações: na primeira, iremos supor que as populações sejam normais 
(reveja os Problemas 32, 33 e 34 do Capítulo 10, os Problemas 31 e 32 do Capítulo 11 e o 
Problema 29 do Capítulo 12); na segunda, essa suposição não é necessária. 


13.3.1 Populações Normais 


Aqui, P,- N(p,, 02) e P, - N(p,, 02,). 
Queremos testar a hipótese (13.1), que aqui fica escrita na forma 
Ho: E = Po 
Na situação da Figura 13.2 (c), a alternativa adequada é 
H: |, > By 
mas supondo as variâncias iguais. Se estivermos apenas interessados em verificar se existe 
diferença entre as médias das duas populações, não importando a direção, então a alternativa 
adequada será 
Hp, * > 
Para cada amostra calculamos os estimadores da média e da variância: 


- 1% 1 * - 
=X, st= > -XJ; 
e) E L& a 
=D, == 8) 


Sob a hipótese H,, isto é, |, = |, 
E(X-Y)=0, (13.6) 


Var(X-F)=Var(X)+Var(F)=S + SÉ. (13.7) 


Como X — Y tem distribuição normal, se as variâncias fossem conhecidas, a estatística 
X-Y 
=== (13.8) 
VoZ/n+o2/m 
teria distribuição normal padrão, sob a hipótese nula H,, e poderia ser usada para testar H, contra 
H,. Contudo, nas situações de interesse prático, as variâncias não são conhecidas, devendo ser 


substituídas por estimativas convenientes. Aqui, a distribuição t de Student desempenha papel 
importante. Notemos que, da definição da v.a. t de Student, += n(X - u)/s, podemos obter 


Z= 


ar) 
o/vn 
[(n=1)83/02]/n=1) paid 
o que mostra uma relação entre as distribuições t(n — 1) e F(1, n — 1). Observe que o numerador 
de (13.9) é o quadrado de uma N(0, 1) e, portanto, tem uma distribuição x?(1), e o denominador é 
o quociente de uma v.a. x/(n — 1) por (n — 1). 

Vamos considerar dois casos. 

(a) Mesma Variância, Desconhecida 

Suponha que, ao testar a hipótese de igualdade de variâncias, esta não seja rejeitada, isto é, 0º, 
=02,=?, porém essa variância comum é desconhecida. Como S?, e S2, são dois estimadores não 
viesados de 02, podemos combiná-los para obter um estimador comum 


p (13.9) 


, 


= 


m = m = 
gi D+ mn Dl-R) +54 0-PY (43,10) 
p n+m-2 n+m-2 : 


que também é um estimador não viesado de 02. Mais ainda, cada parcela do numerador de 
(13.10), quando dividida por 02, terá distribuição qui-quadrado, com (n — 1) e (m — 1) graus de 
liberdade, respectivamente. Logo, teremos que 


ai xt (n4+m-2), (13.11) 


Pelo Teorema 7.1, a estatística 
X-Y 


ovl/n +1/m E X-Y à (1312) 


S,/6 S, Vl/n+1/m 
terá uma distribuição t de Student, com (n + m — 2) graus de liberdade, sob a hipótese H,, isto é, 
se H, = Ho. 


Tabela 13.1 Dados para duas técnicas de vendas. 


Vendas 


Técnica A | Técnica B 


Dados 
Média 
Variância 


Vendedores 


Exemplo 13.4 Duas técnicas de venda são aplicadas por dois grupos de vendedores: a técnica A, por 
12 vendedores, e a técnica B, por 15 vendedores. Espera-se que a técnica B produza melhores 
resultados. No final de um mês, obtiveram-se os resultados da Tabela 13.1. 

Vamos testar, para o nível de significância de 5%, se há diferenças significativas entre as 
vendas resultantes das duas técnicas. Supondo que as vendas sejam normalmente distribuídas e 
usando o teste da Seção 13.2, vemos que 02, = 02,. 


As hipóteses a serem testadas ficam 
Ho: Ba = Ps 
Hy pa < Po 
Pelas suposições acima, podemos usar a estatística (13.12), com n = 12,m = 15 e Sº, = (115º, 


+ 1482,)/25. Da Tabela V obtemos RC = 11,708, + oo[. 
Da Tabela 13.1 calculamos 


Como t, & RC, rejeitamos H,, ou seja, existe evidência de que a técnica B produz melhores 
resultados do que a técnica A. 
Encontrada diferença entre os métodos, a continuação natural é construir um intervalo de 
confiança para a diferença A = nu, — |. Do resultado (13.12) é fácil verificar que 
IC(A;n)= (Ko = o )t ts, l/n+1/m. 


Para o nosso exemplo, com y = 0,95, esse intervalo reduz-se a 


E ado 
12*15 
=8+5,7= |2,3/13,7. 
(b) Variâncias Desiguais, Desconhecidas 
Quando a hipótese de igualdade de variâncias for rejeitada, devemos usar a estatística 


E-T 
T = — anime 
[527 SE (1218) 
Pode-se provar que, sob a veracidade de H,, a v.a. T aproxima-se de uma distribuição t de 


Student, com o número de graus de liberdade dado aproximadamente por 


ú (A+B) 
ve nad 05-14) 


IC(4;0,95) = 8 +(2,06)(7,15) 


na qual 
A=s/n,B=s,/m. 


Como esse valor é geralmente fracionário, arredonde para o inteiro mais próximo para obter o 
número de graus de liberdade. 


Exemplo 13.5 Queremos testar as resistências de dois tipos de vigas de aço, A e B. Tomando-se n = 
15 vigas do tipo A e m = 20 vigas do tipo B, obtemos os valores na Tabela 13.2. Usando um teste 
F com nível q = 10% rejeitamos a hipótese de variâncias iguais. 


Tabela 13.2 Médias e variâncias para dois tipos de vigas de aço. 


Tipo | Média | Variância 


A 70,5 81,6 
B 84,3 210,8 


Consideremos as hipóteses 
Ho: Ba = Ps 
H;: pa É Hs 
A estatística a ser usada é (13.13), com v = (255,36) (2,11 + 5,85) = 32,08, logo tomamos v = 
32. Com q = 0,05, obtemos da Tabela V que RA = ]-2,037; 2,037[. Com os dados da Tabela 
13.2, temos t, = (-13,8)/(4,0) = —3,45. 
Como t, & RC, rejeitamos H,, ou seja, há evidências de que os dois tipos de vigas têm 
resistências médias diferentes. 


Problemas 


5. Num estudo comparativo do tempo médio de adaptação, uma amostra aleatória, de 50 homens e 50 mulheres de um grande 
complexo industrial, produziu os seguintes resultados: 


Estatísticas Homens 


Médias 3,2 anos | 3,7 anos 


Desvios padrões | 0,8 anos | 0,9 anos 


Que conclusões você poderia tirar para a população de homens e mulheres dessa indústria? (Indique as suposições feitas para 
resolver o problema.) 


6. Diversas políticas em relação às filiais de uma rede de supermercados estão associadas ao gasto médio dos clientes em cada 
compra. Deseja-se comparar esse parâmetro para duas novas filiais, por meio de duas amostras de 50 clientes cada. As 
médias obtidas foram 62 e 71, respectivamente. Sabe-se que o desvio padrão, em ambos os casos, deve ser da ordem de 20 
unidades. É possível afirmar que o gasto médio nas duas filiais seja o mesmo? Caso contrário, dê um intervalo de confiança 
para a diferença. 

7. Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas 
especiais. Para verificar o efeito dos tratamentos, foram usadas amostras cujos resultados estão no quadro abaixo (em 
porcentagem de corrosão eliminada). Qual seria a conclusão sobre os dois tratamentos? 


Método Desvio Padrão 
A 15 48 10 
B 12 52 15 


8. No Problema 4, teste a hipótese de que as médias dos comprimentos do produto produzido pelas duas fábricas são iguais. 

9. Para investigar a influência da opção profissional sobre o salário inicial de recém-formados, investigaram-se dois grupos de 
profissionais: um de liberais em geral e outro de formados em Administração de Empresas. Com os resultados abaixo, 
expressos em salários mínimos, quais seriam suas conclusões? 


Liberais 


Administradores 


13.3.2 Populações Não Normais 


Passamos, agora, a descrever um teste que não faz suposições a respeito da forma das 
distribuições P, e P,, a não ser que as variáveis envolvidas tenham uma escala de medida pelo 
menos ordinal. Ou seja, podemos abordar o caso de variáveis qualitativas ordinais e variáveis 
quantitativas. Esse teste (chamado de Wilcoxon ou de Mann-Whitney) pertence a uma categoria 
de procedimentos chamados não paramétricos ou livres de distribuição. 

Teremos para análise amostras independentes das duas populações e queremos testar a 
hipótese (13.1) contra a alternativa de que as distribuições diferem em localização: estaremos 
interessados em saber se uma população tende a ter valores maiores do que a outra, ou se elas 
têm a mesma mediana ou média. 

O teste de Wilcoxon é baseado nos postos dos valores obtidos combinando-se as duas 
amostras. Isso é feito ordenando-se esses valores, do menor para o maior, independentemente do 
fato de qual população cada valor provém. A estatística do teste é a soma dos postos associados 
aos valores amostrados de uma população, P,, por exemplo. Se essa soma for grande, isso é uma 
indicação de que os valores dessa população tendem a ser maiores do que os valores de P,, e, 
então, rejeitamos (13.1). 

No caso de termos uma v.a. qualitativa ordinal, comumente associamos números às diversas 
categorias (ou classes, ou atributos), segundo as quais a variável é classificada. Por exemplo, 
podemos ter 1 para bom, 2 para muito bom e 3 para ótimo. Vemos, então, que esses valores são 
os postos, nesse caso, e em outras situações é preferível trabalhar com postos do que com valores 
arbitrários associados à v.a. qualitativa. 

Quando trabalhamos com v.a. quantitativas poderemos ter valores repetidos nas amostras. 
Veremos como associar postos nesse caso. Para evitar esses empates, uma possibilidade é supor 
que a v.a. seja contínua, de modo que se X for uma tal variável, P(X = x,) = O. Essa suposição é 
eventualmente necessária para o desenvolvimento teórico do teste, mas na prática, quer X seja 
contínua ou discreta, valores repetidos poderão aparecer. 


(a) Observações Distintas 

Suponha que tenhamos N observações Z,, Z,, .... Zy- Ordenando-as da menor para a maior 
obtemos as estatísticas de ordem, Z,, < Zp, < ... < Zewy; Inicialmente, suponha que não haja 
observações coincidentes, de modo que os sinais de < são substituídos por <. Então, associamos 
números (normalmente 1, 2, ..., N), chamados postos, que correspondem às posições das 
observações na ordenação. O posto de Z;, é igual a 1 + (número de Z, < Z;). Assim, dadas as 


observações 
Z,=0,3,2,= 1,5,2,=-0,5,2,= 2,0, 
os postos de Z,, Z,, Z, e Z, serão, respectivamente, 
R,=2,R,;=3,R,=1,R,=4, 
já que a ordenação resulta em 
-0,5<0,3<1,5<2,0,0UZ,<Z,<Z,<Z, 


Exemplo 13.6 Num estudo sobre um novo método para ensinar Matemática elementar, foram 
selecionadas cinco crianças. Destas, três são escolhidas ao acaso e ensinadas segundo o novo 
método, enquanto as outras duas funcionaram como controle e receberam instrução por um 
método tradicional. Após um período de cinco semanas é feito um teste, e as crianças são 
ordenadas segundo seu desempenho: a criança que tiver menor nota recebe posto 1 etc., até a 
criança que tiver maior nota recebe posto 5. 

O método de ensino será considerado eficaz se as três crianças que recebem o novo método 
tiverem postos altos nessa ordenação combinada das cinco crianças. Seja H, a hipótese nula que 
especifica que o tratamento (novo método) não tem efeito, isto é, a nota da criança não é afetada 
se ela for ou não ensinada pelo novo método. Se H, for verdadeira, o posto atribuído a cada 
criança é determinado somente pela sua inteligência, ou seja, a ordenação das crianças não 
depende de qual recebe tratamento e qual funciona como controle. A Tabela 13.3 mostra todos 
os casos possíveis para a ordenação, em que C indica controle e T, tratamento. 


Tabela 13.3 Valores de WS para o Exemplo 13.6. 


Postos 


E 


sasnsnonosool- 
sasnonsososoln 
oOosoOnsnanoos 

oosssnoossala 
soo00n5n5n58558[|w 


Vemos que as crianças e seus postos podem ser divididos em dois grupos (tratados e 
controles) de [5)=10 maneiras diferentes. A suposição de que as três crianças recebendo o 


tratamento são selecionadas ao acaso e de que os tratamentos são equivalentes, implica 


que todas as dez possibilidades têm a mesma probabilidade 1/10. 
Consideremos a estatística 


W,=8,+8,+ S, (13.15) 


em que S,, S, e S, são os postos das crianças que receberam o tratamento na amostra combinada. 
Poderíamos considerar como regra de decisão para rejeitar H, a ocorrência de Wç = 12, 
correspondendo à ocorrência de CCTTT, clara superioridade do tratamento. Qual seria a 
probabilidade de esse evento ocorrer por mero acaso, ou seja, quando os dois métodos são 
equivalentes? Nesse caso teremos 
P(Wç = 12lH, verdadeiro) = 0,10, 


que é a probabilidade do erro de tipo I, ou seja, o nível de significância do teste. Mas, como 
vimos antes, usualmente procedemos de maneira oposta, ou seja, fixamos a e não a regra de 
decisão. 

Como vimos acima, rejeitamos H, para valores grandes de W,, ou seja, W, > c, em que c é uma 
constante determinada a partir do nível de significância do teste, a. Obtemos o teste de Wilcoxon: 
“Rejeite H, se W, > c, em que c é determinada por P(W, > clH, é verdadeira) = q”. 

A distribuição nula (isto é, sob H,) de W, é obtida da Tabela 13.3 e está na Tabela 13.4. 


Tabela 13.4 Distribuição de W,, observações distintas. 


w 6 7 8 9 10 1 12 
P(Ws=w) | 1/10 | 1/10 | 2/10 | 2/10 | 2/10 | 1/10 | 1/10 


A distribuição de W é simétrica ao redor do valor 9 que, como veremos, representa a média de 
Wo dada por n(N + 1)/2, com N = n + m (Ver Figura 13.3). 


Figura 13.3 Distribuição de WS para o Exemplo 13.6. 


Ey 


6 7 8 9 LU) u 12 


Se, por exemplo, a = 0,05, não existe valor satisfazendo P(Wç > c) = 0,05. Podemos encontrar 

c somente para valores de o iguais a 0,1; 0,2; 0,4 etc. Por exemplo, se a = 0,1, então 
P(W,>12)=0,1ec=12. 

Consideremos, agora, a situação geral. Queremos testar (13.1). Temos duas amostras 
independentes, X,, ..., X, deP,eY,..,Y, de P,. Seja N=n + m e combinamos as duas 
amostras numa só, ordenamos os N valores no menor para o maior e chamemos S, <S,<..<sS, 
os postos dos Y, (tratamentos) e R;< R,<...<R, os postos dos X, (controles). Estamos supondo 
que não haja empates. Seja 


W,=8,+8,+...+S, (13.16) 


a soma dos postos dos tratamentos. Rejeitamos H, se W, > c. 
No caso bilateral, rejeite H, se W; < c, ou Wç > c,, para dado q. 
Não é difícil verificar que, se a distribuição de P, for contínua, então 
P(S mb S mis) rios 
(N | (13.17) 


tm 


emques,<s,<..<s es € (1,2,...,N), N=n+m. 


Observação. Por (13.17) vemos que a distribuição dos postos e portanto de W, não depende de P.. 
Isso não ocorrerá se P, não for contínua. Se as distribuições P, e P, forem contínuas, há ausência 
de empates (isto é, coincidência entre valores de X e de Y). Isso significa que poderíamos 
considerar nossas medidas de X e Y de tal sorte que coincidências seriam evitadas. Na prática, 
contudo, as medidas são feitas em geral com o mesmo número de casas decimais, de modo que 
empates podem ocorrer. Essa situação é analisada abaixo. 

A distribuição sob H, de W, pode ser encontrada como no Exemplo 13.6. Para dado valor de 
w, verificamos quantas amostras de tamanho m, retiradas de P = (1, 2, ..., NJ fornecem o valor 
de w. Se % (w; n, m) indicar esse número, então, por (13.17), 

F(wnm) 
(NM) (13.18) 


tm 


P(W, = wlH, é verdadeira ) = 


/ 


Pode-se provar o seguinte resultado (veja, por exemplo, Lehmann, 1975): 


Teorema 13.1 Para a estatística Wç temos: 


E(W, ps (13.19) 
Var(W,)= so (13.20) 


Além disso, a distribuição de Wç pode ser aproximada pela distribuição normal; quando n, m 
> 00,aV.a. 

Wo -E(W,) 

m Var(W,) 


s 


(13.21) 


tem uma distribuição aproximada N(0, 1). 
Uma estatística equivalente a W, é 


Us=W- >m(m +1), (13.22) 


chamada estatística de Mann-Whitney. Há duas vantagens em se usar U,: 
(a) a distribuição de Uç paran=n, em = m, é a mesma que a distribuição de U, quando os 
tamanhos são invertidos, isto é, paran =m, em =n,. Isso não acontece com Wç; 
(b) o valor mínimo de W, é obtido quando os postos dos m tratamentos são 1, 2,...,m 
e1+2+..+m=m(m + 1)/2; logo, o valor mínimo de Uç é zero, para quaisquer valores de 


nem, simplificando a construção de tabelas. A Tabela VIII do Apêndice dá os valores de 
P(U,<u). 
Para essa estatística temos o resultado seguinte. 
Teorema 13.2 A média e variância de Uç são dadas por 


nm 


E(Us)=5 (13.23) 


Var(U,)= cao + (13.24) 


respectivamente. Além disso, a distribuição de Uç pode também ser aproximada por uma normal. 


Exemplo 13.7 Suponha que m = n = 10 e queremos calcular P(W, < 87). O valor tabelado é 0,0952, 
que é encontrado na Tabela VIII com n = m = 10, e levando-se em conta que U, = 87 — 10 x 11/2 
= 32 e, portanto, P(U, < 32) = 0,0952. 

Por outro lado, usando a aproximação normal, E(Wç) = 105, Var(W5) = 175, temos 
W,-105  87-105 

Vi7s — i7s 
que está bem próxima do valor encontrado usando-se a tabela. 

A aproximação pode ser melhorada usando-se a correção de continuidade discutida na Seção 
7.5, pois aqui também estamos aproximando a distribuição de uma v.a. discreta (Wç) por uma 
distribuição de variável contínua (normal). Verifique que, usando essa correção, obtemos P(W, < 
87) = 0,0934. 

(b) Observações Não Todas Distintas 

Consideremos, agora, a situação em que haja observações coincidentes, ou empates. 

Suponha, por exemplo, que n = 3,m = 2 e as observações são 

13, 1,5; 15, 2,1 20; 

Nesse caso, usamos postos médios. Associamos o posto 1 à observação 1,3; às duas 
observações empatadas 1,5 associamos a média dos postos 2 e 3, que seriam atribuídas se as 
observações fossem distintas, ou seja, atribuímos o posto (2 + 3)/2 = 2,5; à observação 2,1 
atribuímos o posto 4 e à observação 2,5 atribuímos o posto 5. 

Embora a atribuição de postos seja diferente nesse caso, continuaremos a usar a mesma 
notação anterior para os postos das observações X, e Y,. A distribuição da estatística W, não é 
mais dada por (13.17), pois os valores de S,, ..., S, não são mais os anteriores. Retomemos o 
exemplo dado. Temos que a distribuição conjunta dos postos S, e S, será: 

P(S,=1,8,=2,5)=2/10, P(S,= 1,8,=4)= 1/10, 
P(S,=1,58,=5)= 1/10, P(S,=S,=2,5) = 1/10, 
P(S,=2,5,8,=4)=2/10, P(S,=2,5,S, = 5) = 2/10, 
P(S,=4,8,=5)= 1/10, 


P(W, <8)=P( jr <-1,36) = 0,087, 


pois ainda cada uma das (5) =10 escolhas de dois dos postos médios como S, e S, são igualmente 


prováveis. Portanto a distribuição de W;=S, + S, é dada pela Tabela 13.5. 


Tabela 13.5 Distribuição de W,, observações não-distintas. 


w 3,5] 5,0: ].16,0' | 16,57 | -Z,5 | 19,0 
P(WS=w) | 2/10 | 2/10 | 1/10 | 2/10 | 2/10 | 1/10 


Observe que a distribuição da v.a. Wç nesse caso não é simétrica; será simétrica ao redor de 
m(N+1)2sen=m. 
Genericamente, o teste de Wilcoxon, no caso de observações empatadas, rejeita H, usando a 


mesma regra de decisão que no caso de observações não empatadas, exceto que a distribuição de 
Ws vai depender de n, m e dos números de observações empatadas em cada valor, ao contrário da 


situação de não empates, para a qual a distribuição de Wç depende somente de n e m. 


Exemplo 13.4 Supondo n = 3, m = 2, as observações dos controles são 1,3, 1,5 e 2,1, e as 
observações dos tratamentos são 1,5 e 2,5. Então, 


8,/=2,5,8,=5,R,=1,R,=2,5,R,;=4eW,=8,+5S,=7,5. 
Pelo que vimos acima, o valor-p será 
«= P(Wç> 7,5) = 2/10 + 1/10 = 0,3, 


logo não rejeitaremos H, nos níveis usuais. 

Suponha que temos d, observações empatadas no menor valor, d, observações empatadas no 
segundo menor valor etc. até d, observações empatadas no maior valor, em que e é o número de 
valores distintos. Denominamos (e; d,, ..., d,) de configuração de empates, e a distribuição de W 
dependerá dessa configuração. Assim sendo, tabelas teriam de ser construídas para cada 
configuração de empates, o que não é prático. O que se faz é o seguinte: se o número de empates 
for pequeno, continue a usar a Tabela VIII. Caso contrário, use a aproximação normal. Nesse 
caso, a média de Wç é a mesma anterior, mas a variância é igual à anterior menos uma correção 
devida aos empates: 


mn(N+1) mn 
I2 — I2N(N-1) 


Sd -d,) (13.25) 


s= 


Var(W, )= 


A aproximação normal será adequada se m e n forem relativamente grandes, e as proporções 
d/N não forem próximas de 1. 


Exemplo 13.9 Em aparelhos dentários são usados grampos de dois tipos: um modelo em T e outro 
circunferencial, C. O objetivo é verificar se a resistência à remoção de grampos em T é a mesma 
do modelo C. Foram usados 40 corpos de provas (dente-grampo), sendo 20 para o modelo Te 20 
para o modelo C, com cinco leituras para cada corpo de prova, num total de 100 observações 
para cada modelo. As Figuras 13.4 e 13.5 mostram os histogramas para os dois modelos, a 
resistência sendo medida em kg. 


Figura 13.4 Resistência à remoção, em kg, para o modelo C. 


Figura 13.5 Resistência à remoção, em kg, para o modelo T. 


1 


16 20 


ZA 287 


Vemos que há assimetrias nos histogramas, sugerindo que a aplicação do teste t de Student 
não é adequada nessa situação. A Tabela 13.6 mostra as médias das 5 leituras para cada corpo de 
prova, para o modelo Te para o modelo € (em ordem crescente). 

Admitamos que o grupo de controle seja aquele em que os grampos sejam do tipo T, e 
grampos do tipo € constituam o tratamento. Ordenando as médias da Tabela 13.6 e atribuindo 


postos obtemos a Tabela 13.7. 


Tabela 13.6 Valores de resistência à remoção para os dois modelos. 


Tabela 13.7 Postos para o Exemplo 13.9. 


Média 0,52 0,60 0,63 0,77 


Tipo CC TÕÃõêT 
Posto 1 2 3 


0,79 0,79 0,81 0,81 0,83 0,85 


G 


CG Je TT 


55 55 75 75 9 10 


Média 0,89 0,91 0,95 0,98 


Tipo & TT T 
Posto 11 12 13 


1,01 1,01 1,03 1,03 1,16 1,18 


Cc 


TT TE 


15,5 15,5 17,5 17,5 19 20 


Média 1,19 1,19 1,20 1,20 


Tipo €C TT 


Posto: 21,5: 21,5 23,5 23,5 


1,26 1,28 1,30 1,34 1,36 1,37 


E 
25 


To. JE dE. dE 


26 27 28 29 30 


Média 1,38 1,43 1,45 1,54 


Tipo. “CG CG T 
Posto 31 2 33 


1,64 1,68 1,71 2,16 2,20 2,25 


E 


34 35 


36 


Cc Cc T ÊE 
37 38 39 40 


Aqui n = m = 20 e queremos testar 


Ho: a resistência à remoção é a mesma para os dois tipos de grampos; 


H,: o tipo C apresenta menor resistência à remoção do que o do tipo T. 


A soma dos postos dos tratamentos é 


W=S,+8,+... + Sy = 406,5. 


Usando a aproximação normal, a v.a. 
VVar(W,) | Ra 
em que Var(W5) é dada por (13.25), e terá distribuição aproximadamente N(0, 1). Consultando a 
Tabela 13.7, temos 


d=d=d,=d=1,d=2,d=2,d,=..=d,=1, 
da=2,d,=2,ds=de=1,d,=2,dg=2, 
do=..=dy=1. 


Aqui, temos e = 34 valores distintos e 
E(W9) = (20 x 41)/2 = 410, 
Var(W9 = (20 x 20 x 41)/12 — (20 x 20)/(12 x 40 x 39) [(8—- 2) x 6] 
= 1.366,667 — 2,857 = 1.363,810. 
O valor de (13.26) é 
Z = (406,5 — 410)/36,93 = —0,095. 
Como rejeitaremos H, se W; <c, no nível a = 0,05, devemos comparar esse valor com o valor 
—1,64 da normal padrão, portanto não rejeitamos H,. 
Vemos que o valor-p do teste é 
«= P(W,< 406,5) = P(Z < —0,095) = 0,46, 
que é uma indicação de que a hipótese H, deve ser aceita. 


Observação. Comparação entre o Teste t e o Teste de Wilcoxon. 

O teste t baseia-se na suposição de que as populações P, e P, sejam normais. Uma violação 
dessa suposição altera a distribuição da estatística usada no teste e muda as probabilidades dos 
erros de tipo 1 e II. Dizemos que um teste é robusto contra a violação de uma suposição se suas 
probabilidades de erro de tipo I e II não são afetadas de forma apreciável pela violação. 

Pode-se mostrar que o teste t é pouco sensível à heterogeneidade de variâncias se m = n, mas 
ele será mais afetado se as variâncias forem diferentes e m % n. 

Os testes t e de Wilcoxon são comparados pelos de seus poderes em termos de uma quantidade 
chamada eficiência relativa assintótica, mas não entraremos em detalhes aqui sobre esse assunto. 
Mas podemos resumir a situação da seguinte maneira: 

(a) o teste t é mais poderoso quando temos populações normais, mas a perda de eficiência do 

teste de Wilcoxon é pequena (menos de 5%) nesse caso; 

(b) haverá pouca diferença entre os dois testes para distribuições próximas da normal; 

(c) o teste de Wilcoxon é mais eficiente para distribuições que têm caudas “mais pesadas” do 

que a normal. 

Para se ter uma ideia do que significa mais pesada, observamos que as distribuições t e 
Cauchy têm distribuições com caudas mais pesadas que a normal. Se P, e P, forem ambas 
uniformes, pode-se provar que os dois testes são igualmente eficientes e se P, e P, forem ambas 
exponenciais, o teste de Wilcoxon é três vezes mais eficiente. 


10. Vinte canteiros foram plantados com milho. Em dez deles um novo tipo de fertilizante foi aplicado, obtendo-se as produções 
abaixo. Há diferenças significativas entre as produções? A alternativa é que o novo fertilizante tende a produzir valores maiores. 


Tome O = 0,05. Calcule a. 


Controle |[7,1/60/]8,00/7,0/6,6/74]7,0]7,0|]6,9]|6,8 


Tratamento | 6,9 |6,8 17,5 |6,8 16,9] 6,8 |6,8 |6,8] 6,7 | 6,6 


11. Obtenha a distribuição nula de Ws para os casos: 
()m=2,n=2;(bD)m=2,n=4;(J)Jm=n=8. 
12. Calcule as seguintes probabilidades, usando a Tabela VIII e a aproximação normal. 
(a)m=6,n=7, P(Wç< 48) 
(b)m=8,n=10, P(Wç< 65) 
(c)m = 10,n = 10, P(Wç 2 63) 
13. Encontre a distribuição nula de Wç no caso de empates, para Os casos: 
()m=n=3,d/=d,=1,dy=2,d =d,=1 
(bD)m=n=3,d/=d, =dy=2 
()m=2,n=3,d,=d,)=1,d;=3 
14. Faça os histogramas para Wsç nos Problemas 11 e 13. 
15. Suponha que as observações dos tratamentos sejam 3, 3, 5 e 7, e as observações dos controles sejam 1, 4 e 8, e que o teste de 
Wilcoxon rejeite para valores grandes de Wç. Calcule « = P(Ws 2 w), em que w é o valor observado de Wç. 


13.4 Comparação de Duas Populações: Amostras Dependentes 


Na Seção 13.1, já discutimos essa situação. Aqui, temos duas amostras X,,..., X,e Y,,..., Y,, só 


que agora as observações são pareadas, isto é, podemos considerar que temos na realidade uma 
amostra de pares (X,, Y,), ..., (X,, Y,). Se definirmos a v.a. D = X — Y, teremos a amostra D,, D,, 


o D,, resultante das diferenças entre os valores de cada par. Observe que reduzimos a um 

problema com uma única população, conforme estudado nos capítulos anteriores. 
Consideraremos dois casos: no primeiro, supomos que a população das diferenças é normal; 

no segundo, supomos que essa população é simétrica. 

13.4.1 População Normal 


Nessa situação, faremos a seguinte suposição: a v.a. D tem distribuição normal N(g,, 025). 
Podemos deduzir daqui que 


] e 
D, o et -Y)=X-F (13.27) 
terá distribuição N(p,, 02p/n). 
Considere 
1 & s 
= >/(D,-D). (13.28) 
Pelo Teorema 7.1, a estatística 


ã SMP me) (13.29) 


D 


terá distribuição t de Student, com (n — 1) graus de liberdade. 
Como 


pp = E(D) = E(X — Y) = E(X) - E(Y) = p,- Ho 
qualquer afirmação sobre o |, — |, corresponde a uma afirmação sobre |. 


Exemplo 13.10 Cinco operadores de certo tipo de máquina são treinados em máquinas de duas 
marcas diferentes, A e B. Mediu-se o tempo que cada um deles gasta na realização de uma 
mesma tarefa, e os resultados estão na Tabela 13.8. 


Tabela 13.8 Tempos para realização de tarefa para cinco operadores. 


Operador | Marca A | Marca B 
1 80 75 
2 72 70 
3 65 60 
4 78 72 
5 85 78 


Com o nível de significância de 10%, poderíamos afirmar que a tarefa realizada na máquina A 
demora mais do que na máquina B? 
Estamos interessados em testar 


Ho: Ha = Ps 

Hy: pa? Po: 
Essas hipóteses são equivalentes a 

Ho: n,=0 

H,: n,>0. 

Como é o mesmo operador que realiza a tarefa nas duas máquinas, estamos diante do caso em 
que se pode usar variáveis emparelhadas. Vamos admitir que, sob H,, a diferença de tempo segue 
uma distribuição normal N(0, 02,). Logo, usamos a estatística (13.29). 

Para determinar a região crítica, note que, devido à forma de H,, devemos encontrar t. tal que 
P(T > t,) = 0,10, sendo que T tem distribuição t(4). Usando a Tabela V, obtemos 

RC = 11,54; +o0[. 
Da Tabela 13.8 obtemos os valores de D: 
d; 5,2,5,6,7 
e, portanto, 
d-=5es?,=3,5. 
O valor observado da estatística T é 4 =(5/1,87)(5)=5,98. Segue-se que rejeitamos H,, ou seja, 


demora-se mais para realizar a tarefa com a máquina A. 
Podemos construir um intervalo de confiança para Hp; para y = 0,90, 


IC(u,—45:0,90) = 1C(u,;0,90)= 5 + (2,13)(1,87)/45 


ou seja, 


IC(np; 0,90) = 13,22; 6,78[. 


13.4.2 População Não Normal 


Vamos considerar, agora, um teste baseado nos postos das diferenças D; o chamado teste dos 
postos sinalizados de Wilcoxon. Para esse teste, supomos que a escala das diferenças seja pelo 
menos intervalar e que os pares (X, Y,;) constituam uma AAS. 

Isso implica, em particular, que os D, são independentes, com a mesma mediana. Suponha, 
ainda, que cada D, tenha uma distribuição simétrica. Ou seja, as médias e medianas coincidem. 


Exemplo 13.11 Suponha que se possa simular um modelo por meio de duas linguagens 
computacionais, que chamaremos A e B. Supostamente, o tempo usando B é menor que o tempo 
usando A. Cinco pares de alunos são selecionados para o teste, de modo que cada membro de um 
par tenha a mesma habilidade computacional nas duas linguagens do que o outro. Um membro 
de cada par é escolhido ao acaso e este vai usar a linguagem B; o outro usará A. O tempo de 
simulação (em segundos) de cada linguagem é anotado, obtendo-se a Tabela 13.9. 


Tabela 13.9 Tempos de simulação (em segundos) para as linguagens A e B. 


Par 1 2 3 4 5 


tempo de B(X) | 300 | 410 | 420 | 410 | 400 
tempo de A(Y) | 350 | 390 | 490 | 435 | 440 


D=SX=Y -50 | 20 | -70 | -25 | -40 
Posto de D| 4 1 5 2 3 


Posto sinalizado | -4 | +1 | -5 | -2 | -3 


Queremos testar a hipótese de que os tempos são semelhantes contra a hipótese de que os 
tempos de B são menores. Ou, ainda, 


Ho: ha — Ha =0p=0, 
H,: pp — Da = Hp <0. 
Na quarta linha da Tabela 13.9 estão apresentadas as diferenças D,, e os postos são calculados 
a partir das variáveis |D|, ou seja, os módulos (ou valores absolutos) dos D, (quinta linha). A 
sexta linha, “posto sinalizado”, é obtida atribuindo-se ao posto de |D| o sinal correspondente de 
D,. Por exemplo, para a primeira observação, D, = 300 - 350 = -50, com |D,| = 50, que tem posto 
4 e, portanto, posto sinalizado -4. 
Notamos que só há um posto positivo, +1. Se indicarmos por T” a soma dos postos positivos, 
rejeitaremos H, se T' for “pequeno”. E claro que podemos trabalhar com os postos negativos 


também, e considerar T- = -(soma dos postos negativos). No exemplo, T* = 1 e T* = 14. Usando 
T', rejeitaremos H, se esta for “grande”. Note que T* + Tº = 15, que é a soma de todos os postos 
dos |D|, que, por sua vez, é n(n + 1)/2, sendo n = 5 o número de pares. Em geral, devemos usar a 
menor soma. 

Trabalhemos com T*. Para conduzir o teste, devemos obter a distribuição dessa estatística, sob 
a hipótese nula H,. Para isso, note que, se H, for verdadeira, cada posto tem a mesma 
probabilidade de ser associado com um sinal + ou com um sinal —. Logo, a sequência de postos 


sinalizados é uma de todas as possíveis combinações de +1, +2, ..., +5. Há 2º = 32 tais 
combinações, todas equiprováveis sob H,, ou seja, com probabilidade 1/32. 

Na Tabela 13.10, temos todas as possibilidades juntamente com o valor de T*. Na Tabela 
13.11, temos a distribuição de T*. Note que a distribuição de T* é simétrica, com média e 
mediana iguais a 7,5. 


Tabela 13.10 Sinais possíveis para os postos, Exemplo 13.10. 


1/2/3]4 |5|T+ 1]2]83 5: | T+ 
+l+|+|+|+lasll+|+l-|+]-|7 
«|+l+|+]+|ia | |=|+]-|-|+]7 
-|+|+]+l13 | |-|-|+|+4+]-=|7 
+|-|+|+|1 -|-|-|+1 6 
En +|+|12 +|+|-|-|6 
be | a -|+|11 =| |= = 16 
-|+]- + [|+|-|- -|5 
+ [+ -Jao | |-|+|+|-|-|5 
-|+ - [+10 -[-|-|-|+]5 
+|-|-|+|+|a0| |+|-|+|-|-|4 
+|+|+|-|9 «|-[-|+]-]4 
-|-|-|+|+19 +|+|-|-|-|3 
+|-|+|-|+]9 = [e ))=)=)a 
+l+|-|-|+|]8 -«|4+|-|-|-|2 
+|-|+|+|-|8 +|-|-|-|- 
-|-|+|-|+]8 Eulbi=t) se =o | =D 
Tabela 13.11 Distribuição de T+ sob H,. 
T' 01234 5.6 7/8 9100141 12/33 14. 15 


Frequência |/1 1122333233 32 2141 11 


O valor-p do teste é P(T* < 11H,) = 2/32 = 0,06, usando a Tabela 13.11. Ou seja, há indicação 


de que o tempo de simulação usando a linguagem B é menor do que o tempo de A. Observe que 
temos poucos pares, e o valor « = 0,06 não é tão pequeno (reveja a Tabela 12.2). Mas como 
temos somente um posto positivo dentre cinco, somos levados a duvidar da validade de H.,. 


Vejamos, agora, o caso geral. Tomemos os valores absolutos das diferenças, ou seja, 
Di=K-FLi= 1, om: 


Quando X, = Y, omitir a diferença correspondente e seja n o número de diferenças estritamente 
diferentes de zero. Associemos a cada par (X, Y)) o posto do módulo de D, correspondente. Use 
postos médios, se houver D, coincidentes. 


A hipótese a ser testada é que a média (ou a mediana) das diferenças seja igual a zero contra a 
alternativa que não seja. Testes unilaterais podem, também, ser considerados. Ou seja, dada a 
simetria da distribuição dos D, iremos testar 


He no), 
H: 0,0, 
em que |, representa, como antes, a média das diferenças. 
Considere 


R(X,F), seD,>0, 
R= [te t), Deo (1830) 


em que R(X, Y;) é o posto associado a (X,, Y). 
Temos dois casos a tratar: 
(a) Se não houver empates, use a estatística 
T+ = >U R com D,>0), (15.61) 


ou seja, a soma dos postos positivos. Use a Tabela IX, página 528, para obter os quantis w, da 
estatística, ou seja, o valor, tal que P(T* <w)<pe P(T'>w,)<1—p, se H, for verdadeira. Para 
n> 50 use a aproximação normal, com média e variância dados no teorema abaixo. Para p > 0,5 
o quantil é dado por 


(b) Se houver empates, use a estatística 
ne 
pe 
o ma (13.32) 
Ns d 


que tem uma distribuição aproximadamente N(0,1), sob a hipótese nula. 


Teorema 13.3 A média e variância de T* são dadas por 


E(T*)= ain) (13.33) 


Var(7+)= At Km +) (13.34) 


respectivamente. 

Exemplo 13.11 (continuação) Obtivemos aqui T* = 1. A região crítica é unilateral à esquerda, logo 
rejeitamos H, se T“ < w,, em que w, é o quantil dado pela Tabela IX. Se fixarmos a = 0,025 ou « 
= 0,01, obteremos w, = 0, com n = 5, e, portanto, aceitaremos H,. Se « = 0,05, então w = 1,eo 
valor observado estará na fronteira da região crítica e teremos dúvidas em aceitar ou rejeitar H,. 


Como salientamos antes, a decisão, nesse caso, dependerá de uma análise cuidadosa dos 
resultados, dado o pequeno valor de n. 


13.5 Comparação de Proporções em Duas Populações 


Nosso objetivo agora é a comparação das proporções p, e p, de indivíduos de duas populações 
P, e P,, respectivamente, que tenham um mesmo atributo. Para isso, extraímos duas amostras 


independentes dessas populações, com tamanhos n, e n,, respectivamente, e obtemos os 
estimadores usuais ), e p,. Das seções 10.9 e 12.6 temos que 
Ê, -N [o atcel) P, -N [Po ticeal) 
] 2 
Usando os resultados da Seção 13.3.1 e Problema 10.32, obtemos 
a ia Ee: a(1= py 
odio n(n- 24 po, Pal o), 
Mm n, 
e portanto, 
ns (d, Es Pi)-(p; -P,) - N(0,1). 
pll-p). p(l-p) 
n, h, 


Pode-se provar que, substituindo p, e p, por seus estimadores, 


(dh -P.)-(m-p;) =g 
B(I-P), Pa(1= dr) RO: (13,35) 


Mm Mm 


Suponha agora que queiramos testar as hipóteses 
Ho: D, =D» 
H,: p,ÉD> 
Usando os mesmos argumentos apresentados na Seção 13.3.1(a), deve-se usar um estimador 


comum de p,= p,, a saber 
So mo, + fy DP, 
n+n, 


e de (13.35) obtemos, sob H.,, 


ê= Pd, -N(0.1). (13.36 
Pei- PA +A) ERR 


Exemplo 13.12 Para lançamento da nova embalagem do sabonete X a divisão de criação estuda duas 
propostas, A e B. Em cada um de dois supermercados similares, foram colocados sabonetes com 
cada tipo de embalagem, e a clientes selecionados aleatoriamente foi perguntado se tinham 
notado o sabonete e que descrevessem o tipo de embalagem. Abaixo estão os resultados: 


Notaram? 


Proposta Total 


400 
600 


Total 348 | 652 | 1000 


Queremos testar a hipótese que os dois tipos de embalagem são igualmente atraentes, ou seja, 
Ho: Pa = Pp» 
H,: pa É Pp: 

Da tabela obtemos », = 348/1000 = 0,348, substituindo em (13.36), obtemos: 


E 0,42-0,30 =3,90. 


l l 
fo.348 10652) x a 


Consultando a Tabela III, encontramos um valor-p próximo de zero, o que leva à rejeição de 
H,. Como este resultado mostra que as variâncias também são diferentes, a construção de um 


intervalo de confiança para p, — p, pode ser feita usando (13.35). Supondo o coeficiente de 
confiança y = 0,95, obtemos 


tas 


(0,42)(0,58) | (0,30)(0,70) 


C(p,— Pa;0,95)=(0,42-0,30)+ 1,961 O 


=0,12+0,061, 
ou seja, 
IC (p, — Pp; 0,95) = ]0,059; 0,181]. 


Problemas 


16. Para investigar a lealdade de consumidores a um determinado produto, sorteou-se uma amostra de 200 homens e 200 
mulheres. Foram classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres. Os dados trazem evidências de 
diferença de grau de fidelidade entre os sexos? Em caso afirmativo construa um intervalo de confiança para a diferença. 

17. Em uma amostra de 500 famílias da cidade A, constatou-se que 298 haviam comprdo, durante os últimos 30 dias, o 
refrigerante Meca-Mela em sua nova versão incolor. Na cidade B, esse número foi de 147 em 300 famílias entrevistadas. Na 
cidade A, foi feita uma campanha publicitária pela rádio local, e não na cidade B. Os resultados trazem evidências de que as 
campanhas locais aumentam as vendas? 

18. Um partido afirma que a porcentagem de votos masculinos a seu favor será 10% a mais que a de votos femininos. Em uma 


pesquisa feita entre 400 homens, 170 votariam no partido, enquanto que entre 625 mulheres, 194 lhe seriam favoráveis. A 
afirmação do partido é verdadeira ou não? Caso rejeite a igualdade, dê um IC para a diferença. 
19. Para investigar os resultados do segundo turno de uma eleição estadual tomaram-se duas amostras de 600 eleitores cada: uma 
da capital e outra do interior. Da primeira, 276 disseram que votariam no candidato A, enquanto que 312 eleitores do interior 
também o fariam. 
(a) Estime a proporção de eleitores da capital que votariam em A. Dê um IC. 
(b) Existe diferença nas proporções entre capital e interior? 
(c) Que tamanho igual deveriam ter ambas as amostras para que a diferença entre as proporções fosse estimada com erro 
inferior a 2%? 
(d) Qual a proporção esperada de votos que irá receber o candidato A no estado? 
(e) De uma amostra de 120 indivíduos da classe A e B, 69 são favoráveis a eleição em dois turnos, enquanto que em uma 
amostra de 100 indíviduos da classe C, 48 é que são favoráveis. Existe evidência e diferenças de opiniões em relação à classe 
social? 
20. Para verificar a importância de um cartaz nas compras de certo produto, procedeu-se do seguinte modo: 
(a) formaram-se sete pares de lojas; 
(b) os pares foram formados de modo que tivessem as mesmas características quanto à localização, ao tamanho e ao volume de 
vendas; 
(c) num dos elementos do par, colocou-se o cartaz; no outro, não; 
(d) as vendas semanais foram registradas, e os resultados estão a seguir. 
Qual seria a sua conclusão sobre a eficiência do cartaz? Use o teste t, fazendo as suposições necessárias. 


Vendas 
Pares 
Sem cartaz | Com cartaz 
E 13 16 
2 18 24 
3 14 18 
4 16 14 
5 19 26 
6 12 17 
7 22 29 


21. Resolva o problema anterior, usando o teste dos postos sinalizados de Wilcoxon. 

22. Aplique o teste de Wilcoxon para os dados do Exemplo 13.10. 

23. Os dados abaixo referem-se a medidas de determinada variável em 19 pessoas antes e depois de uma cirurgia. Verifique se as 
medidas pré e pós-operatórias apresentam a mesma média. Que suposições você faria para resolver o problema? Faça gráficos 
apropriados para verificar suas suposições. 


Pessoas | Pré | Pós | Pessoas | Pré | Pós 


H 


50,0 | 42,0 10 40,0 | 50,0 
50,0 | 42,0 da 50,0 | 48,0 
50,0 | 78,0 12 75,0 | 52,0 
87,5 | 33,0 13 92,5 | 74,0 
32,5 | 96,0 14 38,0 | 47,5 
35,0 | 82,0 15 46,5 | 49,0 
40,0 | 44,0 16 50,0 | 58,0 
45,0 | 31,0 17 30,0 | 42,0 
62,5 | 87,0 18 35,0 | 60,0 

19 39,4 | 28,0 
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13.6 Exemplo Computacional 


Consideremos as medidas de um índice de placa bacteriana obtidas de 26 crianças em idade 
pré-escolar, antes e depois do uso de uma escova experimental (Hugger). Veja o CD-Placa, no 
final do livro. 

Como temos medidas feitas num mesmo indivíduo, as duas amostras são dependentes. Se 
quisermos testar se os índices médios de placa bacteriana antes e depois da escovação são iguais, 
teremos de usar a metodologia da seção anterior. Usando a notação dessa seção, teremos que 
testar 

Ho: p= 

Hy p;> ho 
ou, o que é equivalente, 

BH pa-U 

Eca 0. 

Na Tabela 13.12, temos os dados e as diferenças d = x,—- y, i = 1,2,..., 26. Na Figura 13.6, 
temos os box plots dos dois conjuntos de dados, que sugerem distribuições bem diferentes. 


Tabela 13.12 Índices de placa bacteriana. 


Sujeito | Antes (x;) | Depois (y;) | d = x,- Postos de ld| 
1 2,18 0,43 1,75 18 
2 2,05 0,08 1,97 20 
3 1,05 0,18 0,87 vd 
4 1,95; 0,78 1517 13 
5 0,28 0,03 0,25 2 
6 2,63 0,23 2,40 23,5 
Fi 1,50 0,20 1,30 16 
8 0,45 0,00 0,45 3 
E] 0,70 0,05 0,65 5 
10 1,30 0,30 1,00 10 
ii 1,25 0,33 0,92 8 
12 0,18 0,00 0,18 E! 
13 3,30 0,90 2,40 23,5 
14 1,40 0,24 1,16 12 
15 0,90 0,15 0,75 6 
16 0,58 0,10 0,48 4 
17 2,50 0,33 2,17 21 
18 2,25 0,33 1,92 19 
19 155 0,53 1,00 10 

20 1,43 0,43 1,00 10 
21 3,48 0,65 2,83 26 
22 1,80 0,20 1,60 17 
23 1,50 0,25 1,25 14,5 
24 2,55 0,15 2,40 23,5 
25 1,30 0,05 1,25 14,5 
26 2,65 0,25 2,40 23,5 
Total 35,52 351,0 


Figura 13.6 Box plot para x, (antes) e y, (depois). R. 
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Temos que d- = 1,366 e S2, = 0,5631, donde o desvio padrão S, = 0,75. 
A estatística do teste é 


Fixando-se o = 0,01, o valor crítico da estatística t com 25 graus de liberdade é 2,485, que 
deve ser comparado com o valor obtido acima. Logo, rejeitamos H,, de modo que a nova escova 


é eficaz em remover a placa bacteriana. 


O valor-p do teste é 
a= P(t(25) > 9,2864) = 0, 


o que confirma que a hipótese nula deve ser rejeitada. Um intervalo de confiança para q, é dado 
por [1,063; 1,669]. A saída do programa Minitab para efetuar esse teste está no Quadro 13.1. 
Uma breve explicação dos comandos segue abaixo: 

(a) o comando “Paired C1, C2” significa que estamos solicitando que seja feito um teste com 
observações pareadas, que estão nas colunas C1 e C2; 

(b) o comando “Test 0.0” significa que queremos um teste para igualdade de médias; 

(c) o comando “Alternative 1” significa que a hipótese alternativa é aquela estabelecida acima, 
isto é, À, > Hs; 

(d) o comando “Confidence 95.0” estabelece que o intervalo de confiança a ser construído tem 
coeficiente de confiança y = 0,95; 

(e) finalmente, os comandos “GDotplot;” e “GBoxplot.” pedem para fazer um gráfico de 
dispersão unidimensional e um box plot, respectivamente. 

A saída do programa mostra: 

(a) as médias das duas amostras e a diferença das médias (“Mean”); 

(b) os desvios padrões das duas amostras e das diferenças (“StDev”); por exemplo, S, = 0,75, 
como encontramos acima. 

(c) os erros padrões estimados dos estimadores (“SE Mean”); por exemplo, o erro padrão 
estimado de X - Y é s,/n =0,147; esse valor é usado para construir o intervalo de confiança 
para H, — Ho; 

(d) o intervalo de confiança com c.c. = 0,95 para |, — |, dado por [1,063; 1,669]; 

(e) o valor observado da estatística t (“T-value”), no caso t = 9,29, e o valor-p (“P-value”), que 
é zero nesse caso. 

Além dessa saída, podemos pedir gráficos ilustrativos. Por exemplo, o dotplot com o intervalo 
de confiança da Figura 13.7. Neste, vemos destacado o valor estipulado por H,, que, no exemplo, 
é zero, e não pertence ao intervalo. Na Figura 13.8, temos o box plot das diferenças, com o 
mesmo intervalo de confiança e H,. 


Quadro 13.1 Test t pareado. Minitab. 


> attach(tabl3 12) 
> t.test(antes,depois, 

alternative="two.sided", 

paired=TRUE, conf.level = 0.95) 
Paired t-test 
data: tab13 12$antes and tab13 12$depois 
t= 9.29, df = 25, p-value = 1.4e-09 
alternative hypothesis: 

true difference in means is not equal to O 
95 percent confidence interval: 

1.0632 1.6691 
sample estimates: 
mean of the differences 

1.3662 


Figura 13.7 Dotplot das diferenças d, com o intervalo de confiança para [l,; também mostrados H, |, = 0 e—d = 1,366. R. 
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Figura 13.8 Box plot para as diferenças d, com o intervalo de confiança para |; também mostrados H, |, = 0 e -d = 1,366. R. 


13.7 Problemas Suplementares 


24. Uma empresa deseja estudar o efeito de uma pausa de dez minutos para um cafezinho sobre a produtividade de seus 
trabalhadores. Para isso, sorteou seis operários, e contou o número de peças produzidas durante uma semana sem intervalo e uma 
semana com intervalo. Os resultados sugerem se há ou não melhora na produtividade? Caso haja melhora, qual deve ser o 
acréscimo médio de produção para todos os trabalhadores da fábrica? 


Operário 
Sem Intervalo |23|35/29]33/]43|32 
Com Intervalo | 28 |38|29/37|42|30 


25. Numa indústria, deseja-se testar se a produtividade média dos operários do período diurno é igual à produtividade média dos 
operários do período noturno. Para isso, colheram-se duas amostras, uma de cada período, observando-se a produção de cada 
operário. Os resultados obtidos foram os seguintes: 


Diumo | 15 | 180 | 2.660 
Noturno | 15 | 150 | 2.980 


De acordo com esses resultados, quais seriam suas conclusões? 
26. Num levantamento feito com os operários da indústria mecânica, chegou-se aos seguintes números: salário médio = 3,64 


salários mínimos e desvio padrão = 0,85 salário mínimo. Suspeita-se que os salários da subclasse formada pelos torneiros 
mecânicos são diferentes dos salários do conjunto todo, tanto na média como na variância. Que conclusões você obteria se uma 
amostra de 25 torneiros apresentasse salário médio igual a 4,22 salários mínimos e desvio padrão igual a 1,25 salário mínimo? 

27. Os dados abaixo representam a porcentagem do orçamento gasto com pessoal para 50 pequenos municípios de uma certa 
região. 


69,5 71,6 730 689 689 70,0 
726 662 681 724 676 732 
67,6 69,7 710 694 715 73,8 
69,6 69,6 68,2 69,9 71,4 70,7 
69,7 710 660 70,3 717 69,2 
69,8 684 69,5 682 721 70,8 
722 692 71,7 656 696 70,1 
69,9 70,5 680 702 69,0 66,3 
69,4 67,1 


(a) Analise estatisticamente os dados. 

(b) Com base na sua análise, e sabendo que na região considerada existem, ao todo, 200 municípios, em quantos deles você 

acha que o gasto com pessoal é maior que 70% do orçamento? 

(c) Em outra região, sabe-se que o gasto médio com pessoal é de 65%, e o desvio padrão é de 20%. Qual das duas regiões é 

mais homogênea em relação a essa variável? Por quê? 
28. Uma amostra de 100 trabalhadores de uma fábrica grande demora, em média, 12 minutos para completar uma tarefa, com um 
desvio padrão de dois minutos. Uma amostra de 50 trabalhadores de uma outra fábrica demora, em média, 11 minutos para 
completar a mesma tarefa, com desvio padrão igual a três minutos. 

(a) Construa um IC de 95% para a diferença entre as duas médias populacionais. 

(b) Deixe bem claro quais as suposições feitas para a solução apresentada. 
29. Deseja-se testar se dois tipos de ensino profissional são igualmente eficazes. Para isso, sortearam-se duas amostras de 
operários; a cada uma, deu-se um dos tipos de treinamento e, no final, submeteram-se os dois grupos a um mesmo teste. Que tipo 
de conclusão você poderia tirar, baseando-se nos resultados abaixo? 


Amostra | Nº de elementos | Média | Desvio padrão 


Tipo I 12 Ao 5 
Tipo 10 74 10 


30. Numa discussão sobre reajuste salarial, entre empresários e o sindicato dos empregados, chegou-se a um impasse. Os 
empresários dizem que o salário médio da categoria é 7,6 salários mínimos (SM), e os empregados dizem que é 6,5 SM. Para 
eliminar dúvidas, cada um dos grupos resolveu colher uma amostra independente. Os empresários, com uma amostra de 90 
operários, observaram um salário médio de 7,0 SM, com um desvio padrão igual a 2,9 SM. Já a amostra do sindicato, com 60 
operários, apresentou média igual a 7,10 SM e desvio padrão de 2,4 SM. 

(a) As amostras colhidas servem para justificar as respectivas afirmações dos dois grupos? 

(b) De posse dos dois resultados, qual é o seu parecer? 
31. A Torrefação Guarany está querendo comprar uma nova ensacadora de café. Após consultar o mercado, ficou indecisa entre 
comprar a de marca A ou a de marca B. Quanto ao custo, facilidade de pagamento, tamanho etc. elas são equivalentes. O fator 


que decidirá a compra será a precisão em encher os pacotes (medido pela variância). Deseja-se, na realidade, testar hipótese O é A 


= 02p, por meio da estatística F = S2,/S2p. Podem-se construir regiões críticas bilaterais, unilaterais à direita ou à esquerda, 
dependendo do objetivo. Indique qual seria a região crítica mais favorável às seguintes pessoas: (Justifique.) 

(a) proprietário da torrefação; 

(b) fabricante de A; e 


(c) fabricante de B. 
32. Um médico deseja saber se uma certa droga reduz a pressão arterial média. Para isso, mediu a pressão arterial em cinco 
voluntários, antes e depois da ingestão da droga, obtendo os dados do quadro abaixo. Você acha que existe evidência estatística 
de que a droga realmente reduz a pressão arterial média? Que suposições você fez para resolver o problema? 


33. Uma amostra de 100 lâmpadas elétricas produzidas pela fábrica A indica uma vida média de 1.190 horas, com desvio padrão 
de 90 horas. Uma amostra de 75 lâmpadas produzidas pela fábrica B indica uma vida média de 1.230 horas, com desvio padrão 
de 120 horas. Admitindo que as variâncias populacionais sejam diferentes, você acha que existe diferença entre as vidas médias 
populacionais das lâmpadas produzidas pelas fábricas A e B? 
34. Queremos comparar dois métodos de ensino A e B. Dispomos de 40 crianças. Podemos proceder de duas maneiras: 

(i) Sorteamos 20 crianças para compor uma classe, e as restantes formam outra classe. Aplicamos um método a cada classe e, 

depois, fazemos uma avaliação para todas as crianças a respeito do assunto ensinado. 

(ii) Aplicamos inicialmente um teste de inteligência às 40 crianças. Numeramos as crianças de 1 a 40, segundo o resultado do 

teste. Consideramos os 20 pares (1, 2), (3, 4), ..., (39, 40), e de cada par sorteamos uma criança para cada classe. 
Obtemos, assim, duas classes de 20 crianças, homogêneas quanto à inteligência. Aplicamos um método a cada classe e depois 
avaliamos todas as crianças. 

(a) Qual a variável de observação em cada procedimento? 

(b) Quais as hipóteses estatísticas adequadas? 

(c) Qual o teste estatístico de decisão em cada caso? 

(d) Qual dos dois procedimentos você preferiria? Por quê? 
35. De 400 moradores sorteados de uma grande cidade industrial, 300 são favoráveis a um projeto governamental, e de uma 
amostra de 160 moradores de uma cidade cuja principal atividade é o turismo, 120 são contra. 

(a) Você diria que a diferença de opiniões nas duas cidades é estatisticamente significante? 

(b) Qual seria um IC de 90% para a proporção de favoráveis ao projeto nas duas cidades? (Suponha que o número de pessoas 

nas duas cidades seja aproximadamente igual.) 
36. Para verificar o grau de adesão de uma nova cola para vidros, preparam-se dois tipos de montagem: cruzado (A), em que a 
cola é posta em forma de X, e quadrado (B), em que a cola é posta apenas nas quatro bordas. Os resultados da resistência para 
duas amostras de 10 cada estão abaixo. Que tipo de conclusão poderia ser tirada? 


Método A | 16 | 14] 19] 18] 19]20|15]18]/17]18 
Método B | 13] 19/14/17/21]24/10/14/13]15 


37. Em um estudo para comparar os efeitos de duas dietas, A e B, sobre o crescimento, 6 ratos foram submetidos à dieta A, e 9 
ratos à dieta B. Após 5 semanas, os ganhos em peso foram: 


A |15/18/12/11/14/15 
B | 11 | 11 | 12.) 16) 12:) 13:/:8 | 10/13 


(a) Admitindo que temos duas amostras independentes de populações normais, teste a hipótese de que não há diferença entre 
as duas dietas, contra a alternativa que a dieta A é mais eficaz, usando o teste t de Student, no nível de O = 0,01. Calcule q. 
(b) Efetue o teste usando a estatística de Wilcoxon, com O = 0,01. Calcule a. 
38. As amostras (X,, ..., X140) e (Y4, ..., Y,9) de duas populações normais com médias |, e |; e mesma variância O 2 forneceram 
as estatísticas: 


X=80,52,=16;Y=83,52,=18. 


Teste, com o nível O = 0,05, a hipótese Ho: Hj = |; contra a alternativa H,: 1, < |. 


39. Em um estudo sobre um novo método para ensinar Matemática a alunos do primeiro grau, dez crianças foram selecionadas ao 
acaso de um grupo de 20 e ensinadas pelo novo método, enquanto as outras dez serviram como controle e ensinadas pelo método 
tradicional. Após dez semanas o desempenho dos alunos em um teste foi avaliado e obtiveram-se as seguintes notas: 


Novo método | 8,5 | 7,5 19,0 19,5/]10,0/7,0|6,518,018,5|7,0 


Controle |7,5/100/65/50|80/75/45/95/65]75 


Teste, com nível O = 0,05, a hipótese de que o novo método é mais eficaz, utilizando o teste t e o teste Wilcoxon. Obtenha a em 
cada caso. 


40. Seja Wp = Rj +... + R, a soma dos postos dos controles. Qual o valor de Wp + Ws? 
41. Sen = 4em = 6, prove que P(Wç 2 35) = P(Ws < 31), usando o fato que Wç é simétrica em torno de m(N + 1)/2. 


42.Sen=4em=6, prove que P(Wç 2 35) = P(Wp < 20). 

43. Para o CD-Placa, teste se a escova convencional é eficaz para remover a placa bacteriana. Calcule o valor-p do teste. 

44. Para o CD-Temperaturas, teste se a temperatura média de Cananeia é igual à temperatura média de Ubatuba (suponha que as 
observações para cada cidade sejam independentes, embora saibamos que elas não são, pois temos dados de séries temporais). 

45. Numa pesquisa sobre a opinião dos moradores de duas cidades, A e B, com relação a um determinado projeto, obteve-se: 


Cidade A B 


N-: de entrevistados | 400 | 600 


N- de favoráveis | 180 | 350 


Construa um IC para a diferença de proporções de opiniões nas duas cidades. 
46. Duas máquinas A e B, são usadas para empacotar pó de café. A experiência passada garante que o desvio padrão para ambas é 
de 10 g. Porém, suspeita-se que elas têm médias diferentes. Para verificar, sortearam-se duas amostras: uma com 25 pacotes da 


máquina A e outra com 16 pacotes da máquina B. As médias foram, respectivamente, xy = 502,74 ge xg = 496,60 g. Com esses 


números, e com o nível de 5%, qual seria a conclusão do teste Hg: Ha = Hp? 


47. Na região sul da cidade, 60 entre 400 pessoas preferem a bebida Meca-Mela entre as demais similares. Na região norte, a 
proporção é de 40 entre 225 entrevistados. Baseado no resultado dessa amostra, você diria que a proporção de todos os moradores 
nas duas regiões é a mesma? Use O = 0,05. 

48. Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois anos consecutivos, com duas amostras 
independentes de 400 donas de casa em cada uma delas. A preferência pela marca em questão foi de 33% e 29%, 
respectivamente. Os resultados trazem alguma evidência de mudança de preferência? 

49. No exemplo 13.12, suponha que se acredite que a proposta A chame a atenção em pelo menos 5% a mais do que a proposta 


B. Teste a validade de tal afirmação, isto é, teste Ho: pa - pp = 0,05 contra H;: pa - pp 2 0,05. 


Capítulo 14 


Análise de Aderência 
e Associação 


14.1 Introdução 


No Capítulo 4, estudamos como analisar descritivamente dois conjuntos de dados provenientes 
de duas variáveis aleatórias, resumidas na forma de tabelas de dupla entrada. Essas variáveis 
podem ser qualitativas ou quantitativas, e a ideia era que podíamos classificar os elementos da 
amostra de cada variável em categorias, ou classes ou ainda atributos. Na Tabela 4.11, temos a 
situação geral, em que duas v.a. qualitativas X e Y foram classificadas em r categorias para X e s 
categorias para Y. Usaremos a notação dada naquele capítulo (ver Seção 4.4). Lá, estávamos 
interessados em analisar a possível associação entre X e Y, e, para isso, propusemos o uso da 
estatística qui-quadrado de Pearson, dada por (4.4), e que repetimos aqui: 

e =5 5 nc) (14.1) 


= Ny 


em que n”, denota o valor esperado sob a hipótese de que as duas v.a. não são associadas. 
Naquele capítulo, apenas notamos que essa estatística deveria ser “pequena”, se a hipótese H, de 
não associação fosse verdadeira, e “grande”, caso contrário. Lá também estudamos como medir, 
por meio do coeficiente de correlação, a associação entre duas variáveis quantitativas. Neste 
capítulo, vamos precisar esses conceitos. Além do teste mencionado no Capítulo 4, iremos 
estudar outros testes que utilizam muito a estatística (14.1), bem como outras distribuições já 
estudadas. Faremos, agora, uma breve resenha sobre esses testes. 


1. Testes de Aderência 

Temos uma população P e queremos verificar se ela segue uma distribuição especificada P,, 
isto é, queremos testar a hipótese H,: P = P,. No Capítulo 12, vimos também como testar essa 
hipótese, empregando testes sobre os parâmetros média e variância. Aqui, o teste comparará o 
número de casos ocorridos em caselas especificadas, com o número esperado de casos nelas, 
quando a hipótese H, for verdadeira. 

O procedimento consiste em considerar classes, segundo as quais a variável X, característica 
da população, pode ser classificada. A variável X pode ser qualitativa ou quantitativa. Neste 
capítulo, estudaremos um teste no qual as probabilidades da v.a. X pertencer a cada uma das 
classes são especificadas. A estatística usada será (14.1). 


Exemplo 14.1 Um dado é lançado 300 vezes, com os resultados dados na Tabela 14.1. Por 
enquanto, considere somente a linha correspondente às frequências observadas. Com os 


resultados observados, queremos saber se o dado é “honesto”, isto é, se a probabilidade de 
ocorrência de qualquer face é 1/6. Ou seja, queremos testar a hipótese 


Ho: p,=p,)=..=p= 1/6, 


em que p, = P (face à), i= 1, 2, ..., 6. Isso equivale a dizer que P, segue uma distribuição 
uniforme discreta. 


Tabela 14.1 Resultados do lançamento de um dado 300 vezes. 


2. Testes de Homogeneidade 

Considere o seguinte exemplo. 
Exemplo 14.2 Uma prova básica de Estatística foi aplicada a 100 alunos de Ciências Humanas e a 
100 alunos de Ciências Biológicas. As notas são classificadas segundo os graus A, B, C, De E 


(em que D significa que o aluno não recebe créditos e E indica que o aluno foi reprovado). Os 
resultados estão na Tabela 14.2. 


Tabela 14.2 Resultados da aplicação de uma prova de Estatística a 100 alunos de Ciências Humanas e 100 alunos de Biologia. 


Aluno de Total 


C. Humanas | 15/20] 30/20] 15] 100 
C. Biológicas | 8 |23/ 18/34/17] 100 


Total 23/43/48/54/32] 200 


Queremos testar se as distribuições das notas, para as diversas classes, são as mesmas para os 
dois grupos de alunos. Esse teste pode ser estendido para o caso de três ou mais populações. 

Testes desse tipo já foram vistos no Capítulo 13, quando queríamos testar a hipótese (13.1). 
Estudamos lá dois testes, o t de Student e o de Wilcoxon. Para esses testes, supomos ou que as 
populações sejam normais ou, então, preferencialmente, que tenham distribuições contínuas (não 
necessariamente normais). Mas, de qualquer modo, testávamos separadamente se as duas 
populações diferiam em localização ou escala. No caso presente iremos apresentar um teste 
baseado na estatística (14.1), que contempla alternativas gerais; por exemplo, as populações 
podem diferir-se em localização e escala. 

Novamente, para efetuar o teste, consideramos amostras das duas populações, P, e P, e 
classificamos os seus elementos de acordo com certo número de categorias para as duas variáveis 
características de P, e P,. 


3. Testes de Independência 

Vimos, no Capítulo 4, a importância de quantificar o grau de associação entre duas variáveis, 
usando a estatística (14.1). Porém, essa quantificação só tem sentido se as variáveis não forem 
independentes. O teste que apresentaremos aqui supõe a existência de duas v.a.'s Xe Y, e os 
valores de amostras delas são classificados segundo categorias, obtendo-se uma tabela de dupla 
entrada. Queremos testar a hipótese que X e Y são independentes. 


Exemplo 14.3 Uma companhia de seguros analisou a frequência com que 2.000 segurados (1.000 
homens e 1.000 mulheres) usaram hospitais. Os resultados estão na Tabela 14.3. A hipótese a 
testar é que o uso de hospital independe do sexo do segurado (veja o Problema 6 do Capítulo 4). 


Tabela 14.3 Frequências com que 2.000 segurados usaram hospital. 


Homens | Mulheres 


Usaram hospital 100 150 


Não usaram hospital 900 850 


4. Teste para o Coeficiente de Correlação 

Quando se investiga associação entre duas variáveis quantitativas, o artifício de agrupar os 
dados em intervalos (classes) reduz a variável quantitativa a um caso particular de variável 
qualitativa, assim, poderíamos usar as mesmas técnicas da análise desse último tipo de variável. 
Mas esse procedimento pode não ser o melhor possível, e o uso do coeficiente de correlação 
como medida de associação entre variáveis quantitativas é o caminho mais apropriado. Na Seção 
14.5, voltaremos a tratar desse tema agora sob o ponto de vista da inferência. 

Para finalizar esta seção, notamos que os testes descritos nos itens (1)-(3) são todos baseados 
na distribuição qui-quadrado e são parte dos chamados testes não paramétricos. Para essa classe 
de testes não se supõe que a população (ou populações) siga algum modelo particular, como 
fizemos para alguns dos testes dos Capítulos 12 e 13. Na Seção 14.6, introduzimos, por meio de 
um exemplo, um outro tipo de teste não paramétrico de aderência, baseado na comparação da 
distribuição empírica dos dados com a distribuição hipotetizada para a população. 


14.2 Testes de Aderência 


Retomemos o Exemplo 14.1. 


Exemplo 14.1 (continuação) Para o uso da fórmula (14.1) necessitamos conhecer os valores 
esperados do lançamento do dado, sob a hipótese de ele ser “honesto”, ou seja, sob a hipótese H, 
formulada anteriormente. Observamos da Tabela 14.1 que o dado foi lançado 300 vezes. Então, 
se H, for verdadeira, esperaremos 50 casos em cada casela, como mostrado na tabela. Na 
Fórmula (14.1) e na tabela, denotamos as frequências observadas por n, e as esperadas por n”.. 
Usando a fórmula podemos calcular o qui-quadrado observado, 
RR E aid 36 

Como veremos a seguir, essa estatística, sob H,, segue uma distribuição qui-quadrado, com o 
número de graus de liberdade apropriado. Imagine que queiramos simular uma amostra de 300 
lançamentos de um dado. O problema seria o de preencher as seis caselas correspondentes às 
frequências n, na Tabela 14.1, com a restrição de a soma ser 300. E fácil ver que só podemos 
preencher “livremente” cinco das caselas, uma delas (qualquer) resultará como a diferença entre 
300 e a soma dessas cinco. Temos, então, cinco “graus de liberdade” para preencher as caselas. 

Consultando a Tabela IV, com a = 0,05 e 5 graus de liberdade, encontramos o valor crítico x2. 
= 11,070, que é maior do que x? ,, = 8,96, logo, não rejeitamos H,. Ou seja, há evidências de que 
o dado seja honesto. 

O problema aqui pode ser caracterizado da seguinte maneira. Temos uma amostra X,, ..., X, da 


n 


= 8,96. 


obs 


v.a. X que caracteriza a população P e queremos testar a hipótese 
Ho: P =P, (14.2) 


em que P, tem uma distribuição de probabilidades especificada. Muitas vezes, como é o caso de 
variáveis qualitativas e variáveis discretas, a variável X de interesse da população é categorizada 
em classes 4,, A,, ..., A, e temos as probabilidades p, = P(X E A),i=1,2,...,s. Então, a 
hipótese H, pode ser formulada de modo equivalente como 


E Di = Digo Dy = Digo ees De = Dip 


em que p, são os valores especificados pela hipótese nula, ou seja, são as probabilidades 
conhecidas que determinam P,. 

No caso de uma v.a. discreta X, assumindo os valores i = 0, 1, 2, ..., temos que p,= P(X = id), i 
> 0; X pode ser uma v.a. binomial, ou Poisson ou ainda geométrica, por exemplo. Poderemos 
querer testar se a amostra observada vem de uma dessas distribuições. 

Se X for uma v.a. contínua, poderemos dividir o seu domínio de variação em intervalos (de 
mesma amplitude, por exemplo) e construir a distribuição de frequências correspondente, como 
fizemos no Capítulo 2. Por exemplo, poderemos querer testar se nossa amostra foi escolhida de 
uma população com distribuição normal (média e variância especificadas). 

Em todas as situações, obtemos uma tabela de contingência 1 x s, como aquela formada pela 
primeira linha (frequências observadas) da Tabela 14.4. 


Tabela 14.4 Frequências observadas e esperadas numa tabela 1 x s. 


Categoria 4) 4 |. [A] Total 
as] Os n 


Freq. Observadas | O, | O, 


Freq. Esperadas | E, | E, |... | Es n 


Incidentalmente, o modelo probabilístico apropriado para essa situação é o modelo 
multinomial. Veja o Problema 27. 
Vamos escrever a estatística (14.1) na forma 
:(0,-E) 
p= SSL (14,3) 
1 i 


em que O, representa o valor efetivamente observado para a classe A, e E, representa o valor 
esperado, sob a hipótese H,, para a classe A. Como temos n observações, os valores esperados 
sob H, são dados por 


E,=npo i=1,2,...,s. (14.4) 


Se a hipótese H, for verdadeira, pode-se demonstrar que x? tem uma distribuição qui-quadrado 
com (s - 1) graus de liberdade. 
A hipótese alternativa a H, é que pelo menos uma das igualdades não valha, ou seja, 
H,: p, É Dj» para pelo menos um j. (14.5) 


Rejeitaremos H, se o valor da estatística (14.3) for grande, no sentido que podemos encontrar 
um valor c da Tabela IV, tal que P(x(s - 1) > c) = q, para o nível de significância a fixado. 


Temos, pois, um teste unilateral à direita. 


Exemplo 14.4 Um estudo sobre acidentes de trabalho numa indústria revelou que, em 150 acidentes, 
obtemos a distribuição da Tabela 14.5. 


Tabela 14.5 Acidentes de trabalho numa indústria nos dias da semana. 


32 40 20 25 33 | 150 
30 30 30 30 30 | 150 
(O, - EYE, | 0,1333 | 3,333 | 3,333 | 0,833 | 0,300 | 7,932 


O objetivo é testar a hipótese que os acidentes ocorrem com igual frequência nos cinco dias da 
semana. Ou seja, queremos testar 


Ho p,=p,=...=p,= 1/5, 
H,: p, é 1/5, para pelo menos um ). 


Sob a hipótese nula, os valores esperados estão na Tabela 14.5. Por exemplo, E, = 150 x 1/5 = 
30 etc. Obtemos 


, 2 2 
Cs Bee) A fes-ão) =7,932. 


30 
Fixando-se a = 0,05, temos que o valor crítico de uma distribuição x*(4) é 9,488, portanto não 
rejeitamos H,. O valor-p do teste é 


«= P(x(4) > 7,932) = 0,09552, 
o que nos diz a mesma coisa. 


Exemplo 14.5 Retomemos o Exemplo 6.17, no qual consideramos o ajuste de uma distribuição de 
Poisson à desintegração de substâncias radioativas. Na Tabela 6.13, tínhamos as informações 
necessárias para calcular (14.3), sendo que n, = O, e np, = E, k = 1, 2, ..., 11. Temos, então, que 
s=11ev=s-1=10grausde liberdade. O valor observado de (14.3) é y? = 12,875, e não 
rejeitamos H,, no nível de significância « = 0,05, pois o valor crítico obtido da Tabela IV é 
18,307. Verifique que o valor-p aqui é a > 0,23. 

Finalmente, vejamos um exemplo para testar se um conjunto de dados vem de uma população 
normal especificada. 


Exemplo 14.6 Considere os dados abaixo, que supostamente são uma amostra de tamanho n = 30 de 
uma distribuição normal, de média p = 10 e variância o? = 25. Os dados já estão ordenados. 

104 1,73 393 44 637 651 

7,61 7,64 818 848 857 8,65 

9,71 9,87 9,95 10,01 10,52 10,69 

11,72 12,17 12,61 12,98 13,03 13,16 

14,11 14,60 14,64 14,75 16,68 22,14 


Vamos classificar esses dados em quatro intervalos, delimitados pelos quartis teóricos 
Q(0,25), Q(0,5) e Q(0,75) da N(10,25). Chamando de Z(p) os quantis da N(0,1), temos 
Q(0,25) = 10 + 52(0,25) = 10 + 5(-0,6745) = 6,6275, 
Q(0,5) = 10 + 52(0,5) = 10 + 5(0) = 10, 


Q(0,75) = 10 + 5Z(0,75) = 10 + 5(0,6745) = 13,3725. 
A hipótese nula a ser testada é 
H,: P = N(10,25). 


Tabela 14.6 Valores observados e esperados para dados, sob suposição de normalidade. 


Classes | A, = (-00; 6,63] | A, = (6,63; 10] | A, = (10; 13,37] | A, = (13,37; +00) | Total 
0, 6 9 9 6 30 
E, 75 zo Zs fis) 30 


Na Tabela 14.6, temos os valores observados em cada intervalo e os valores esperados, sob H,, 
ou seja, cada intervalo deve conter um quarto das observações, ou, ainda, as probabilidades das 
classes são dadas por 

p,= P(X< 6,6275) = 0,25, 
p, = P(6,6275 < X< 10) = 0,25 etc. 


O valor da estatística (14.3) é x? = 1,2, que deve ser comparado com o valor crítico de uma 
X*(3), para dado nível de significância. Se a = 0,05, esse valor é 7,815, que nos leva a aceitar H,, 
ou seja, podemos considerar que temos uma amostra de uma normal com média 10 e variância 
25. O valor-p do teste é maior do que 0,75. Verifique. Um gráfico dos quantis dos dados contra 
os quantis de uma normal está na Figura 14.4. Os pontos deveriam estar todos próximos de uma 
reta. Isso acontece para a maioria dos pontos, mas há pontos distantes da reta e, em particular, 
um ponto atípico no canto superior direito (o valor 22,14). Um histograma e um box plot dos 
dados estão mostrados na Figura 14.1. 


Figura 14.1 Histograma e box plot para os dados do Exemplo 14.6. SPlus. 


St a a 


Problemas 


1. Calcule o valor-p para o Exemplo 14.1. 

2. Calcule os valores-p para os Exemplos 14.5 e 14.6. 

3. Um modelo genético especifica que animais de certa população devam estar classificados em quatro categorias, com 
probabilidades p, = 0,656, p5 = 0,093, pa = 0,098, 
Da — 0,158. Dentre 197 animais, obtivemos as seguintes frequências observadas: O, = 125, O, = 18, 0, = 20, 0, = 34. 


Teste se esses dados estão de acordo com o modelo genético postulado. 
4. Teste se os dados abaixo são observações de uma distribuição normal com média 30 e desvio padrão 10. 


15,9 169 183 185 19,0 
19,5 21,8 230 238 245 
26,1 269 32,3 350 36,1 
365 37,2 385 40,9 44,2 


5. Um dado foi lançado 1.000 vezes, com os seguintes resultados: 


Ocorrência | 1 2 3 4 5 6 
Frequência | 158 | 186 | 179 | 161 | 141 | 175 


Teste a hipótese que o dado é balanceado. 


14.3 Testes de Homogeneidade 


Vimos no capítulo anterior como testar a hipótese (13.1) de que as duas populações P e P, 
tinham a mesma distribuição. Os testes utilizados foram baseados na distribuição t de Student, 
que assume normalidade das populações, ou o teste não paramétrico de Wilcoxon (Mann- 
Whitney), que não faz essa suposição, mas fica bem mais fácil se as distribuições forem 
contínuas. 

O teste que apresentaremos agora pode ser usado para dados discretos ou contínuos e serve 
para testar H, dada por (13.1) contra alternativas gerais, e não somente para testar diferenças de 
localização. 


Exemplo 14.2 (continuação) Considerando P, como a população de alunos de Ciências Humanas e 
P, a dos alunos de Ciências Biológicas, nosso objetivo é testar a hipótese 

HeP =P, 
usando os resultados amostrais da Tabela 14.2. Para isso, precisamos encontrar os valores 
esperados n”,, para aplicar a fórmula (14.1). 

Inicialmente, observemos que se H, for verdadeira, a distribuição de probabilidades nas duas 
linhas deveria ser a mesma, e equivaleria a ter uma única população P. A última linha (de totais) 
da Tabela 14.2 representaria uma amostra de 200 alunos dessa única população. A Tabela 14.7 
apresenta as estimativas das proporções, em cada grau, para P,, P, e P. Sendo H, verdadeira, 
deveríamos esperar para P, e P, as mesmas proporções observadas para P, ou valores 
aproximadamente iguais. Ou, ainda, todas as linhas dessa tabela deveriam ser iguais entre si, e 
iguais à linha de totais, o que aparentemente não ocorre. A partir dessas porcentagens, podemos 
obter as frequências absolutas correspondentes (ou valores esperados) se H, for verdadeira. 
Obtemos, então, a Tabela 14.8. 


Tabela 14.7 Porcentagens estimadas das classes para cada população. 


C. Humanas 
C. Biológicas 
Total 


Tabela 14.8 Frequências absolutas sob H, (n*,). 


Aluno de 


C. Humanas | 11,55 |21,5 24/27 | 16 
C. Biológicas | 11,5 | 21,5 |24 | 27 | 16 
Total 54/32 


Desse modo, encontramos os valores esperados n” 
obtendo-se 


que podem ser substituídos em (14.1), 


ij? 


(15-11,5) (15-16) (8-11,5) da 


2 


Nota = ILS E ave td [6 + TLS o T6 


Novamente, para consultar a tabela precisamos determinar os graus de liberdade, e vamos usar 
o mesmo argumento anterior. Quantas caselas poderíamos preencher livremente em uma 
simulação, sendo que os totais marginais são conhecidos? Observando a Tabela 14.9, concluímos 
que basta preencher apenas quatro caselas, as seis restantes são encontradas por diferenças. 
Como exemplo, preenchemos quatro caselas com círculos; as demais (sinais de “mais”) podem 
ser obtidas por diferenças a partir dos totais de linhas ou colunas. 


Tabela 14.9 Determinação do número de graus de liberdade. 


Aluno de 


C. Humanas 


C. Biológicas 


Total 


Da Tabela IV, com q = 0,05 e 4 graus de liberdade encontramos x?. = 9,488, o que leva à não 
rejeição de H,, ou seja, a distribuição das notas é a mesma para as duas populações. 
Observe q os valores esperados na Tabela 14.8 podem ser obtidos de nº, = (n, n)/n. 


Exemplo 14.7 Consideremos, novamente, o Exemplo 13.9 e verifiquemos quantos elementos de 
cada amostra caem nas seguintes classes de resistência à remoção: (0,4; 1,0], (1,0; 1,6], (1,6; 
2,2], (2,2; 2,8]. Obtemos a Tabela 14.10, com os valores esperados entre parênteses. 


Tabela 14.10 Valores observados para amostras do Exemplo 13.12. 


Populações | (0,4; 1,0] | (1,0; 1,6] | (1,6; 2,2] | (2,2; 2,8] | Total 


P(T) 29(33) | 60(52) | 9(11) 2(4) 100 
PXC) 37(33) | 44(52) | 13(11) 6 (4) 100 


Total 66 104 22 8 200 


Utilizando (14.1) obtemos x? = 6,1585. Como temos s = 4, rejeitaremos H,, se 6,1585 > c, 


em que c é o valor de uma v.a. com distribuição x(3), tal que P(xº(3) > c) = o. Com a = 0,05, 
obtemos c = 7,815 da Tabela IV, logo não rejeitamos H, no nível a. 


Esse teste pode ser estendido para o caso de termos r populações P,,..., P, e querermos testar a 
hipótese 
Ho P,=P,=...=P (14.6) 


contra a alternativa em que pelo menos duas são distintas. Obteremos uma tabela de dupla 
entrada r x s. Designando-se os tamanhos das amostras dessas populações por n,, ..., n, comn, + 
«+n,=N,e por n, o número de elementos da amostra de P, classificados na categoria j, teremos 
a situação da Tabela 4.11. A hipótese a ser testada aqui é 
Ho: Pu = Pu == Pn 
Pis = Pa, == Pa 
Nesse caso, a estatística (14.1) tem distribuição x(v), em que o número de graus de liberdade v 
é dado por v = (r - 1)(s - 1). O argumento para obter esse número é o mesmo usado para o 
Exemplo 14.2. 


Problemas 


6. Suponha que tenhamos razões para crer que as notas obtidas por estudantes de escolas públicas sejam menores que as notas 
obtidas por estudantes de escolas particulares, ao tomarem o exame vestibular para uma Universidade. Para testar essa 
hipótese, foram selecionadas duas amostras de estudantes que prestaram o vestibular, suas médias gerais foram anotadas e 


obteve-se a tabela a seguir. 
Escola (0; 2,5] | (2,5; 5,0] | (5,0; 7,5] | (7,5; 10,0] | Total 


Pública 58 
Particular 42 
Total 100 


Teste a hipótese que as duas populações são homogêneas, para o nível de significância & = 0,01. Obtenha o valor-p a. 

7. Cem estudantes foram divididos em duas classes de 50 cada e o objetivo era testar um novo método de ensinar 
Probabilidades. Uma classe recebeu um método tradicional e a outra, o novo método. Após o curso, foi pedido que os 
estudantes resolvessem um problema típico de Probabilidades. Os resultados foram os seguintes: 


Exercício correto | Exercício errado 


Método convencional 33 17 


Método novo Ei 13 


Há razões para acreditar que o novo método é superior? 

8. Duas novas drogas vão ser testadas em 160 pessoas portadoras de rinite alérgica. Metade das pessoas recebe a droga A e a 
outra metade recebe a droga B. Obtém-se a tabela abaixo. Teste a hipótese de que as duas drogas são igualmente eficazes para 
tratar a doença. 


Fficaz | Não Eficaz 


25 
32 


Droga A 
Droga B 


9. Um produto novo é lançado por uma empresa, e, para verificar a sua aceitação, dois grupos de pessoas de duas cidades são 
consultados. De 100 pessoas da cidade A, 32 gostaram do produto e, de 50 pessoas da cidade B, 12 gostaram do produto. Há 
evidências que o produto seja igualmente aceito nas duas cidades? 


14.4 Testes de Independência 
Retomemos o Exemplo 4.3, para efeito de ilustração. 


Exemplo 14.8 Naquele exemplo, o que se queria era verificar se a criação de determinado tipo de 
cooperativa estava associada ao fator regional. Os dados das Tabelas 4.8 e 4.9 estão reproduzidas 
na Tabela 14.11. 


Como temos três linhas e quatro colunas, o número de graus de liberdade da estatística é v = (3 
— 1I)(4 — 1) = 6. Fixando-se a = 0,05, devemos procurar um valor c, tal que P(x“(6) > c) = 0,05, e 
da Tabela IV obtemos c = 12,592. Portanto a região crítica do teste é RC = [12,592; +00. 

Vimos na Seção 4.3 como construir os valores esperados, sob a hipótese de independência (ver 
Tabela 4.9), que estão entre parênteses na Tabela 14.11. O valor observado da estatística qui- 
quadrado encontrado foi y2,,, = 171,76. Como esse valor pertence à região crítica, rejeitamos H,, 
ou seja, há uma forte dependência entre os fatores “tipo de cooperativa” e “região de 
localização”. 

O nível descritivo do teste é a= P(x(6) > 171,76|H, é verdadeira) < 0,1%, ou seja, temos uma 
forte indicação que H, deve ser rejeitada. 

A formalização dos testes de independência passa a ser como segue. Chamemos de p, a 
probabilidade de um indivíduo ser classificado nas categorias ij, i=1,..srejj=1,..55, 
simultaneamente; denotemos por p, e p , as probabilidades marginais. A hipótese de 
independência pode ser escrita na forma 


Ho: Pp; = P;P, p para todo par (i, j), 
H;: D; * PD; P., para algum par (i, j). 
Lembremos que p, =>,» e p;=D,aPy- 


Tabela 14.11 Valores observados e esperados para o Exemplo 14.8. 


São Paulo | 214(157) | 237(269) | 78(143) | 119(79) | 648 
Paraná 51(73) | 102(124) | 126(67) | 22(37) | 301 

Rio G. Sul | 111(146) | 304(250) | 139(133) | 48(73) | 602 
Total 376 643 343 189 [1.551 


A estatística a usar é novamente (14.1), que terá, sob a hipótese H,, uma distribuição qui- 
quadrado com v = (r - 1)(s - 1) graus de liberdade. Rejeitaremos H, se o valor observado da 


estatística for maior do que um valor crítico, dado pela Tabela IV, fixado um valor do nível de 
significância q. 

Dado que a distribuição de qui-quadrado, nesse caso, é uma distribuição aproximada, 
precisamos tomar certos cuidados na sua aplicação. Um deles é garantir que todos os valores 
esperados das caselas não sejam inferiores a cinco. 


10. Para o Problema 16 do Capítulo 4, teste formalmente se a opinião dos habitantes depende do local da residência. 

11. Teste se o uso de hospital independe do sexo para o Exemplo 14.3. 

12. Para o Problema 22 do Capítulo 4, teste se existe dependência entre os fatores: tendência dos alunos a prosseguir os estudos e 
classe social dos entrevistados. 

13. Investigando a “fidelidade” de consumidores de um produto, obteve-se uma amostra de 200 homens e 200 mulheres. Foram 
classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres. Os dados fornecem evidência de possíveis 
diferenças de grau de fidelidade entre sexos? 

14. Uma pesquisa sobre a qualidade de certo produto foi realizada enviando-se questionários a donas de casa pelo correio. 
Aventando-se a possibilidade de que os respondentes voluntários tenham um particular viés de respostas, fizeram-se mais duas 
tentativas com os não respondentes. Os resultados estão indicados abaixo. Você acha que existe relação entre a resposta e o 
número de tentativas? 


Nº de donas de casa 


Opinião sobre o produto 
1º tentativa | 2º tentativa | 3º tentativa 


Excelente 62 36 12 
Satisfatório 84 42 14 
Insatisfatório 24 22 24 


14.5 Teste Para o Coeficiente de Correlação 


O teste apresentado na seção anterior é adequado para averiguar a independência de duas 
variáveis qualitativas. Vimos, na Seção 4.5, que para variáveis quantitativas o coeficiente de 
correlação é uma medida de associação mais adequada. Usualmente, podemos determinar o 
coeficiente de correlação para uma amostra, pois desconhecemos esse valor na população. Uma 
população que tenha duas variáveis não correlacionadas pode produzir uma amostra com 
coeficiente de correlação diferente de zero. Para testar se a amostra foi colhida de uma população 
para a qual o coeficiente de correlação entre duas variáveis é nulo, precisamos obter a 
distribuição amostral da estatística r, definida em (4.7). Esquematicamente, temos a situação da 
Figura 14.2. 


Figura 14.2 Coeficiente de correlação para população e amostra. 
População 


=(x, -X)(x -Y) 


J=(x- XI -X(K-T) 


Seja p = p(X, Y) o verdadeiro coeficiente de correlação populacional desconhecido. Vamos 
apresentar a distribuição amostral de r para duas condições da população: p = 0 e p é 0. Em 
ambos os casos, a distribuição amostral exige que a distribuição da v.a. (X, Y) na população seja 
normal bidimensional, como definida no Capítulo 8. 

Exemplo 14.9 Teste para p = p,. Durante muito tempo, o coeficiente de correlação entre a nota final 
num curso de treinamento de operários e sua produtividade, após seis meses do curso, resultou 
ser 0,50. Foram introduzidas modificações no curso, com o intuito de aumentar a correlação. Se 
o coeficiente de correlação de uma amostra de 28 operários submetidos ao novo curso foi 0,65, 
você diria que os objetivos da modificação foram atingidos? 

A. Hipóteses 

X: resultado no teste; Y: produtividade; 

Ho: p(X, Y) = 0,50; 

H,: p(X, Y) > 0,50; 

B. Estatística do Teste 


R. Fisher sugeriu a seguinte transformação para a estatística r: 


1 E, (14.7) 


E= tn 


que tem uma distribuição muito próxima de uma normal N(p,, 0º), com 
1. 1+p | 
Mega Arms (14.8) 
sendo n o tamanho da amostra (X,, Y,), ..., (X, Y,) e p, O valor do parâmetro populacional. A 
aproximação não vale para p = -1 ou p = 1. Além disso, para p = 0, temos um teste exato, que 
será visto no próximo exemplo. No nosso caso, sob a hipótese H,, & terá distribuição 


aproximadamente normal, com 


1. 1+0,5 l 
= — — = l=—= 
He 2"1-0,5 0,549, og 35 0,04. 


c. Região Crítica 
Como a hipótese alternativa sugere uma região crítica unilateral à direita, e como € - N (0,549; 
0,04), vem que a RC para é, no nível de significância a = 0,05, será 
RC=[5:E> 0,549+1,654,0,04) = [E :E > 0,878). 


D. Resultado da Amostra 


Como r = 0,65, vem que 


1. 1+0,65 


S=2%17-0,65 


=0,774. 
E. Conclusão 

Como &, € RC, aceitamos H,, ou seja, não existe evidência de que o coeficiente de correlação 
tenha aumentado. 
Exemplo 14.10 Teste para p = 0. Queremos testar se existe ou não correlação entre o número de 
clientes e os anos de experiência de agentes de seguros. Sorteamos cinco agentes e observamos 
as duas variáveis. Os dados estão na Tabela 14.12. Qual seria a conclusão, baseando-se nesses 
dados? 


Tabela 14.12 Anos de experiência para cinco agentes de seguros. 


Agente A | B |G | D' | E 


Anos de Experiência | 2 | 4 15 |6|]8 
Número de Clientes | 48 | 56 | 64 | 60 | 72 


A. Hipóteses 
Ho: p=0 
H,p*oO 
B. Estatística do Teste 
Para amostras retiradas de uma população para a qual p = 0, pode-se provar que a estatística 


FendES (14.9) 


I-r? 


tem distribuição t de Student com n - 2 graus de liberdade. No nosso exemplo, a estatística terá 
distribuição t(3). 
c. Região Crítica 

Por ser um teste bilateral, consultando a Tabela V, teremos para a = 0,10, 


RC = (00, -2,353] U [2,353, +00). 


D. Resultado da Amostra 
Calculando o coeficiente de correlação para os dados acima, obtemos r = 0,95; logo, 
3 


Rr” 5,254. 
E. Conclusão 

Como t, E RC, rejeitamos H,, isto é, existe dependência entre anos de experiência e números 
de clientes. 

Nesse caso, seria conveniente construir um intervalo de confiança para p. Observe que, se p £ 
0, devemos usar a estatística € de (14.7). Portanto, se tomarmos por exemplo y = 0,95, devemos 
procurar dois números é, e & para é, tais que 


P(E, <E <8)= 0,95. 


Como 6 - N(p; 1/2), podemos escrever 


ASR SME ta e 095, 


ou seja, 
P(-1,96 <Z< 1,96) = 0,95, 
com Z - N(0,1). Logo, o intervalo para |, é 
IC(u,:0,95)= E, + 1,96,/1/2. 


Mas, 

1, 1+0,95 

dv =28"1-0,95- b832, 
logo 
IC(p; 0,95) = 1,832 + 1,384 = (0,448; 3,216). 
E 
Como 
“Va l+p 
H=5 jo 


e uma expressão semelhante vale para os extremos do intervalo, podemos obter as operações 
inversas para encontrar os extremos do intervalo para p. Assim, de 


Lo l+r 


0,448 = E) En ES 
obtemos 
e —] 
- =0,420, 
e*% 41 o 
e de 
CE AR ia 
? Osesp 
obtemos 
640 | 
r= 070] 099. 


Finalmente, obtemos 
IC(p; 0,95) = (0,420; 0,997). 


15. Estamos estudando se há ou não correlação entre as notas de diversas disciplinas de um curso de mestrado. Analisando uma 
amostra de 12 alunos, encontrou-se uma correlação de 0,60 entre as disciplinas de Estatística e Metodologia da Pesquisa. Teste a 
hipótese de não haver correlação entre as disciplinas. Caso a rejeite, dê um intervalo de confiança para o coeficiente de correlação 
populacional. 

16. Existe relação entre o volume de uma carga e o tempo gasto para acondicioná-la? Para investigar esse fato, sortearam-se nove 
pedidos de mercadorias, medindo-se as duas variáveis de interesse. Com os dados obtidos abaixo, quais seriam as suas 


conclusões? 
Tempo | 84 | 108 | 110 | 133 | 144 | 152 | 180 | 196 | 231 
Volume | 48 | 72 63 82 88 | 109 | 112 | 123 | 140 
14.6 Outro Teste de Aderência 


Na Seção 14.2, estudamos, por meio da distribuição qui-quadrado, como testar a hipótese de 
que um conjunto de dados provém de uma distribuição especificada. Nesta seção, vamos 
introduzir uma outra maneira de testar a hipótese (14.2), por meio de um exemplo. 

No Problema 47 do Capítulo 3, vimos que um estimador da verdadeira função densidade de 
uma população é o histograma. Em particular, foi apresentada uma maneira de obter o intervalo 
de classe, baseada numa “distância” entre o histograma e a função densidade. 

Suponha que tenhamos uma amostra X,, ..., X, de uma população P, sobre a qual estamos 
considerando uma v.a. X. Designemos por f(x) a função densidade e por F(x) a função de 
distribuição acumulada (f.d.a.) de X. Estimar f(x) é equivalente a estimar F(x). Nosso objetivo é 
testar se a amostra observada veio de uma distribuição de probabilidades especificada, e (14.2) é 
equivalente a 


Ho: F(x) = Fo(x), para todo x. 


Vamos considerar a função de distribuição empírica (f.d.e.), F (x), definida no Problema 17 
do Capítulo 2, como um estimador de F(x), para todo valor x real. A situação é a da Figura 14.83. 


Figura 14.3 Gráficos da f.d.a. e f.d.e. e distâncias d, = F(x,) - F(x,). 
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Se F (x) for um bom estimador de F(x) as duas curvas devem estar próximas. Como em todo 


teste de hipóteses, para testar a hipótese acima, teremos que definir o que significa “próximo”. 
Há várias maneiras de medir a “distância” entre F(x) e F(x). Os probabilistas russos 


Kolmogorov e Smirmov propuseram uma estatística para o teste, obtida tomando o máximo dos 
valores absolutos das diferenças F(x)) - Fx), i = 1, ..., n. Nessas diferenças, calculadas nos 


valores amostrais, F(x;) é o valor calculado sob a hipótese nula H,, ou seja, é o valor que a f.d.a. 
hipotetizada toma no ponto x. Formalmente, a estatística a ser usada no teste é 


D=max|F(x,)-F.(x,). (14.10) 


O valor encontrado deve ser comparado com um valor crítico, obtido na Tabela X, fixado um 
nível de significância do teste. Se D for maior que o valor tabelado, rejeitamos H.. 


Retomemos o Exemplo 14.6, no qual queríamos testar se 30 valores observados provinham de 
uma distribuição normal, com média 10 e desvio padrão 5. 


Exemplo 14.6 (continuação) A hipótese a ser testada pode ser escrita na forma 
Ho: F(x) = Fix), Vx, 
H,: F(x) £ Fox), para algum x, 

em que Fx) é a f.d.a. da v.a. X - N(10,25). 

Lembremos que a f.d.e. F (x) é uma função em “escada”, dando um salto igual a 1/30 em cada 
valor X,;. 
Na Tabela 14.13, temos os cálculos necessários. Vemos, por exemplo: 

F(1,04)= P(X <1,04)= P(z s ei = P(Z <-1,792) = 0,0366, 
F.(1,04) = 1/30 = 0,0333 etc. 


Tabela 14.13 Dados para o Teste de Kolmogorov-Smirnov do Exemplo 14.6. 


x | FO) | Fx) | lr(x- Foo) x | FO) | E) | |r(x)- Foo) 
1,04 | 0,0366 | 0,0333 |  0,00323 10,01 | 0,5008 | 0,5333 |  0,03253 
1,73 | 0,0491 | 0,0667 |  0,01760 10,52 | 0,5414 | 0,5667 | 0,02525 
3,93 | 0,1124 | 0,1000 |  0,01237 10,69 | 0,5549 | 0,6000 |  0,04512 
4,44 | 0,1331 | 0,1333 |  0,00026 11,72 | 0,6346 | 0,6333 |  0,00124 
6,37 | 0,2340 | 0,1667 |  0,06725 12,17 | 0,6679 | 0,6667 |  0,00119 
6,51 | 0,2426 | 0,2000 |  0,04259 12,61 | 0,6992 | 0,7000 |  0,00083 
7,61 | 0,3163 | 0,2333 |  0,08299 12,98 | 0,7244 | 0,7333 | 0,00892 
7,64 | 0,3185 | 0,2667 | 0,05180 13,03 | 0,7277 | 0,7667 | 0,03892 
8,18 | 0,3579 | 0,3000 |  0,05793 13,16 | 0,7363 | 0,8000 |  0,06369 
8,48 | 0,3806 | 0,3333 |  0,04723 14,11 | 0,7945 | 0,8333 |  0,03887 
8,57 | 0,3874 | 0,3667 |  0,02077 14,60 | 0,8212 | 0,8667 |  0,04545 
8,65 | 0,3936 | 0,4000 |  0,00642 14,64 | 0,8233 | 0,9000 |  0,07670 
9,71 | 0,4769 | 0,4333 |  0,04354 14,75 | 0,8289 | 0,9333 |  0,10439 
9,87 | 0,4896 | 0,4667 |  0,02296 16,68 | 0,9092 | 0,9667 |  0,05744 
9,95 | 0,4960 | 0,5000 |  0,00399 22,14 | 0,9924 | 1,0000 |  0,07591 


Os valores de Fy(x) podem ser obtidos como na Seção 7.8, por exemplo, usando o comando 
CDF do Minitab. 

Da tabela, vemos que o valor máximo dos valores absolutos das diferenças é D = 0,104. Da 
Tabela X, vemos que para a = 0,05, o valor crítico é 0,242, logo aceitamos H,, ou seja, os dados 


realmente são uma amostra de uma distribuição normal, com p= 10e 0 =5. 


Podemos comparar os quantis (empíricos) dos dados com os quantis da normal, por meio de 
um gráfico q x q, com o objetivo de verificar que os pontos se distribuem ao redor de uma reta, 
como na Figura 14.4. 


Figura 14.4 Quantis da normal padrão contra quantis dos dados. 


Quantis da normal padrão 


14.7 Problemas Suplementares 


17. Teste a independência entre o tipo de atividade e o tipo de propriedade de embarcações para o Problema 20 do Capítulo 4. 

18. Supõe-se que uma moeda favoreça cara, na proporção de duas caras para três coroas. Para testar tal hipótese, lança-se uma 
moeda quatro vezes, contando-se o número de caras. Repete-se esse experimento 625 vezes. Os resultados estão na tabela abaixo. 
Esses dados confirmam ou não a suposição? 


N- de caras | O 1 2 3 | 4 | Total 


Frequências | 72 | 204 | 228 | 101 | 20 | 625 


19. Num laboratório foi realizada uma pesquisa de mercado em que se estudou a preferência com relação a dois adoçantes 
artificiais, A e B, obtendo-se os seguintes resultados. 


Sexo Preferem A | Preferem B | Indecisos 
Feminino 50 110 40 
Masculino 150 42 8 


A distribuição de preferências pelos dois sexos é a mesma? Calcule o valor-p. 
20. Prove que (14.3) pode ser escrita na forma 


4 
É = rá O E, -n. 
bi 
21. Teste, para o nível de 5%, se existe correlação ou não entre o setor primário e o índice de analfabetismo, usando a amostra do 


Problema 11 do Capítulo 4. Caso a resposta seja afirmativa, construa um IC de 95% de confiança para Pp. 


22. No Problema 28 do Capítulo 4, use as sugestões dadas para testar a hipótese p = 0. 

23. Suspeita-se que o coeficiente de correlação entre o salário do marido e o da mulher seja de 0,60 ou mais. Para verificar tal 
hipótese, colheu-se uma amostra de 10 casais, observando-se o salário de ambos. Veja os resultados no Problema 29 do Capítulo 
4. Qual seria sua conclusão? 


24. No Problema 26 do Capítulo 4, temos três variáveis, X, Y e Z, e queremos verificar qual é maior, P(X, Y) ou p(X, Z). 
Verifique se algum dos coeficientes de correlação pode ser considerado como nulo. 

25. Deseja-se verificar se os homens e as mulheres reagem do mesmo modo a um pré-treinamento que visa prepará-los para 
realizar certa tarefa. Um grupo de 28 mulheres e 52 homens são submetidos ao pré-treinamento e, em seguida, mede-se a 
correlação entre o resultado no teste do curso e o número de erros cometidos ao realizar a tarefa. Os coeficientes de correlação 


observados foram: para as mulheres, -0,82; para os homens, -0,52. Usando os resultados do CM-1, Fórmulas (14.11) — (14.14), 
qual seria sua conclusão? Interprete o significado do coeficiente de correlação negativo. 

26. Suponha que uma empresa quer saber o efeito de fumar sobre testes respiratórios para seus trabalhadores. Suponha que os 
trabalhadores são divididos em três classes: nunca fumou, fumou no passado e fumante, e que dados anteriores mostram que as 
porcentagens de trabalhadores nessas três classes são, respectivamente: 52%, 12%, 36%. Se dez trabalhadores são selecionados 


ao acaso, qual a probabilidade de se obter exatamente cinco que nunca fumaram, dois que fumaram no passado e três fumantes 
atuais? (Use 14.15). 


27. Teste, para o nível O = 0,05, que os dados abaixo são de uma amostra de uma distribuição uniforme no intervalo (0,1). 


0,145 0,299 0,516 0,901 0,433 
0,430 0,932 0,356 0,178 0,248 
0,882 0,125 0,517 0,519 0,251 
0,191 0,661 0,321 0,504 0,206 
0,224 0,960 0,092 0,179 0,974 
0,173 0,413 0,372 0,887 0,275 
0,561 0,853 0,527 0,239 0,124 
0,060 0,968 0,421 0,041 0,775 
0,810 0,603 0,229 0,452 0,874 
0,785 0,384 0,064 0,990 0,983 


28. Teste, para o nível O = 0,01, se os dados abaixo provêm de uma distribuição exponencial, com média 0,5. 


0,378 0,391 0,458 0,063 0,009 
1,007 0,470 0,368 0,831 0,387 
0,228 0,389 0,627 0,480 0,093 
0,123 0,089 0,646 0,093 0,400 


29. Teste se os dados do CD-Notas são normais. Use o teste de aderência e o teste de Kolmogorov-Smirnov. 


14.8 Complementos Metodológicos 


1. Comparação dos coeficientes de correlação de duas populações. Vamos supor que P, e P5 sejam os coeficientes de correlação 
de duas populações, das quais retiramos duas amostras independentes, de tamanhos n e m, respectivamente. Desse modo, as v.a. 


Lo l+r Lo l+r, 
Z=>tn— e Z,=>tn— (14.11 
: El 22 1-5 ( ) 


são independentes e terão, respectivamente, as distribuições 
l l 
Z, - n(mi553) e Z,- a(s) (14.12) 
com 


L.l+p o l+p 
dei PS e dE TS (14.13) 


Segue-se que a v.a. D = Z; - Z, terá distribuição normal, com média 


L(l+p 
nom mono = tn( RÃ) (14.14) 


e variância 025 = 1/(n - 3) + 1/(m - 3). Quando p; = Pp», temos que Hp = 0. Esse resultado permite testar se dois coeficientes 


de correlação são iguais ou não. 
2. Distribuição multinomial. Suponha que, quando realizamos um experimento aleatório, os resultados possíveis são os eventos 


Ay, «.., As com probabilidades p; = P(A), i = 1,..,8, L;p; = 1. Suponha que repetimos o experimento n vezes e que p; 
permanece constante em todas as repetições. Defina as v.a. X, ..., X, como: 


X, = número de vezes que A, ocorre nas n repetições, i= | IR 


Então, temos que 


! » 
P(X, =n,,X, No, çÃ, =n,) = PSA Po esPr, (14.15) 


comny, +... + n, = n. Ses = 2 obtemos a distribuição binomial. Observe que X, + ... + X, = n, logo as v.a. X;, ..., X, não são 


independentes. Como cada X; “ Bin(n, p;), obtemos E(X;) = np;, Var(X;)) = np(1 -p),i=1,..,s. 


Capítulo 15 


Inferência para Várias Populações 


15.1 Introdução 


Como vimos no Capítulo 1, uma das preocupações de um estatístico ao analisar um conjunto 
de dados é criar modelos que explicitem estruturas do fenômeno sob observação, as quais 
frequentemente estão misturadas com variações acidentais ou aleatórias. A identificação dessas 
estruturas permite conhecer melhor o fenômeno, bem como fazer afirmações sobre possíveis 
comportamentos. 

Portanto, uma estratégia conveniente de análise é supor que cada observação seja formada por 
duas partes, como vimos em (1.1) do Capítulo 1: 


observação = previsível + aleatório. (15.1) 


Aqui, a primeira componente incorpora o conhecimento que o pesquisador tem sobre o 
fenômeno e é usualmente expressa por uma função matemática, com parâmetros desconhecidos. 
A segunda parte, a aleatória (ou não previsível), representa aquilo que o pesquisador não pode 
controlar e para a qual são impostas algumas suposições, por exemplo, que ela obedeça a algum 
modelo probabilístico específico, que, por sua vez, também contém parâmetros desconhecidos. 

Dentro desse cenário, o trabalho do estatístico passa a ser o de estimar os parâmetros 
desconhecidos das duas partes do modelo, baseado em amostras observadas. 

Neste capítulo, iremos investigar um modelo simples, chamado de análise de variância com 
um fator. No capítulo seguinte, iremos estudar o modelo de regressão linear simples. As técnicas 
de análise de variância foram desenvolvidas principalmente pelo estatístico inglês Ronald A. 
Fisher, a partir de 1918. O leitor interessado pode consultar os trabalhos pioneiros de Fisher 
(1935, 1954) ou Peres e Saldiva (1982) para mais informações sobre esse assunto. 

A situação geral pode ser descrita como segue. Temos uma população P de unidades 
experimentais (indivíduos, animais, empresas etc.), para a qual temos uma v.a. Y de interesse. 
Suponha, agora, que possamos classificar as unidades dessa população segundo níveis de um 
fator. Por exemplo, o fator pode ser o sexo, com dois níveis, arbitrariamente denotados por 1: 
sexo masculino e 2: sexo feminino. A v.a. Y pode ser a altura de cada indivíduo. 

Genericamente, podemos ter I níveis para esse fator. A população fica, então, dividida em 1 
subpopulações (ou estratos), P,, ..., P, cada uma representada por um nível i do fator, i= 1, 2, ..., 
I. No exemplo citado, teríamos duas subpopulações: a dos indivíduos do sexo masculino e a dos 
indivíduos do sexo feminino. 

Na Figura 15.1, mostramos graficamente as suposições adotadas para o comportamento da 
população neste modelo. A Figura 15.1 (a) mostra um comportamento mais amplo, com 
distribuições distintas para cada subpopulação. Na Figura 15.1 (b), aparece a suposição mais 


comum, em que a parte aleatória segue uma distribuição normal, com a mesma variância o? para 
todas as subpopulações P,i=1,2,...,1. 


Figura 15.1 Formas da distribuição de y para os diversos níveis do fator. 


Roy) 


Para cada nível i, observamos a v.a. Y em n, unidades experimentais selecionadas ao acaso da 
subpopulação correspondente, ou seja, teremos uma amostra (y,, .... Y;n) dessa subpopulação. No 


exemplo citado acima, temos i = 1, 2, ou seja, dois níveis para o fator sexo. Extraímos uma 
amostra de tamanho n, de P,: pessoas do sexo masculino, (y,, ..., Yin) € uma amostra de 


tamanho n, de P,: pessoas do sexo feminino, (Y,, ..., Y»n)). Essas amostras são independentes. 
Suponha que E(Y) = | para a população toda, ou seja, a média global da v.a. Y para P. 
Suponha, também, que E(Y|P) = wu, i = 1,..., I, ou seja, as médias da v.a. Y para as 
subpopulações sejam 41, ..., 1; No nosso exemplo, q é a média das alturas da população de todos 
os indivíduos, |, é a média das alturas dos homens, e q, é a média das alturas das mulheres. 
O objetivo é estimar q, i = 1,..., 1 e testar hipóteses sobre essas médias. Uma hipótese de 
interesse é 


H;:p=-H=..=nH,-=| (15.2) 
contra a alternativa 
H,: |, |, para algum par (i, j). (15.3) 


O teste acima corresponde a verificar se as duas populações estão dispostas como na Figura 
15.1 (c), ou seja, os centros das distribuições têm a mesma ordenada e estão sobre uma reta 


paralela ao eixo do fator. Isso significa que o fator não tem influência sobre a média da variável 
sob observação. 

A análise da variância pode ser pensada como um método para testar a hipótese H, acima, por 
meio da análise das variâncias das diversas amostras. Esse método estende aquele visto no 
Capítulo 13, onde comparávamos apenas duas médias. A teoria desenvolvida naquele capítulo 
envolvia situações mais amplas do que as que serão vistas aqui. Sob as mesmas suposições os 
dois métodos são equivalentes. Porém, não podemos usar os métodos do Capítulo 13 para 
comparar mais do que duas populações. Poderia ser aventada a possibilidade de testar as 
hipóteses duas a duas, mas isso traz problemas relacionados no nível de significância do teste 


global, já que efetuaremos (3 testes parciais. Voltaremos a esse assunto na Seção 15.4. 


Um modelo conveniente para descrever essa situação é 
Hr red Lat] À tip (1a) 


para o qual supomos que e, são v.a. independentes, de média zero e variância 02, desconhecida, 
por exemplo. Podemos adicionar a hipótese de que esses “erros” sejam normais, ou seja, 


e; a N(O, 0), (15.5) 


parai=1,2,...,Lj=1,2,...,n. 

Logo, além de estimar p,, ..., H, temos que estimar também o2. Se (15.4) e (15.5) valerem, 
teremos 1 subpopulações normais N(n, 02,), i = 1, 2, ..., 1, que têm médias diferentes e mesma 
variância. A Figura 15.1 (b) ilustra essa situação, com 1 = 4. 

O modelo (15.4) é chamado modelo com efeitos fixos, no sentido de que as subpopulações 
determinadas pelos níveis do fator são aquelas de interesse do pesquisador. Se o experimento 
fosse repetido, amostras aleatórias das mesmas subpopulações seriam extraídas e analisadas. 
Pode-se considerar, também, modelos com efeitos aleatórios, mas esse caso não será tratado 
neste livro. 


Exemplo 15.1 Um psicólogo está investigando a relação entre o tempo que um indivíduo leva para 
reagir a um estímulo visual (Y) e alguns fatores, como sexo (W), idade (X) e acuidade visual (Z, 
medida em porcentagem). Na Tabela 15.1, temos os tempos para n = 20 indivíduos (valores da 
v.a. Y). O fator sexo tem dois níveis: i = 1: sexo masculino (H) e i = 2: sexo feminino (M), com 
n, = n, = 10. O fator idade tem cinco níveis: i = 1: indivíduos com 20 anos de idade, i = 2: 
indivíduos com 25 anos etc., i = 5: indivíduos com 40 anos. Aqui, n, =... = n, = 4. A acuidade 
visual, como porcentagem da visão 


Tabela 15.1 Tempos de reação a um estímulo (Y) e acuidade visual (Z) de 20 indivíduos, segundo o sexo (W) e a idade (X). 


Indivíduo Y W|X ps 
1 96 H |20| 90 
2 92 M |20 | 100 
3 106 H |20| 80 
4 100 M |20 | 90 
5 98 M | 25 | 100 
6 104 H |25|] 90 
7 110 H |25| 80 
8 101 M |25| 90 
9 116 M |30 | 70 

10 106 H |30 | 90 
1a 109 H |30| 90 
12 100 M |30 | 80 
13 112 M |35| 90 
14 105 M |35| 80 
15 118 H |35:] 70 
16 108 H |35|] 90 
17 113 M |40 | 90 
18 112 M |40 | 90 
19 127 H |40| 60 
20 117 H |40| 80 


completa, também gera cinco níveis: i = 1: indivíduos com 100% de visão, i = 2: indivíduos com 
90% de visão, e assim por diante. Não foi possível controlar essa variável a priori como as 
outras duas, já que ela exige exames oftalmológicos para sua mensuração. Daí o 
desbalanceamento dos tamanhos observados: n, = 2,n, = 10,n,=5,n,=2 en,=1. Fatores 
desse tipo são chamados de co-fatores. 

Assim, para o fator sexo, teremos o modelo (15.4) com i= 1,2,j = 1,2,3,..., 10, e para o 
fator idade, o mesmo modelo comi = 1,2,..,5,j=1,2,3,4. 


Exemplo 15.2 Uma escola analisa seu curso por meio de um questionário com 50 questões sobre 
diversos aspectos de interesse. Cada pergunta tem uma resposta, numa escala de 1 a 5 (v.a. Y), 
em que a maior nota significa melhor desempenho. Na última avaliação, usou-se uma amostra de 
alunos de cada período, e os resultados estão na Tabela 15.2. Aqui, o fator é período, com três 
níveis: i = 1: manhã, i = 2: tarde ei = 3: noite; temos n,= 7,n,=6en,=8. 


Tabela 15.2 Avaliação de um curso segundo o período. 


Período 


Manhã | Tarde | Noite 


Exemplo 15.3 Num experimento sobre a eficácia de regimes para emagrecer, homens, todos 
pesando cerca de 100 kg e de biotipos semelhantes, são submetidos a três regimes. Após um 
mês, verifica-se a perda de peso de cada indivíduo, obtendo-se os valores da Tabela 15.3. 


Tabela 15.3 Perdas de peso de indivíduos submetidos a três regimes. 


Regime 


1 2 3 


11,8 | 7,4 | 10,5 
10,5. | 9,7 | 11,2 
12,5 |8,2/11,8 
12,3] 7,2 | 13,1 
15,5 | 8,6 | 14,0 
114 /7,1| 9,8 


Aqui, o fator é regime, com 1 = 3 níveis e cada regime é indexado por; i= 1,2,3. A v.a. Yéa 
perda de peso depois de um mês. E(Y) = pn é a perda de peso global dos 18 homens, |, é a perda 
média de peso para o regime i. As amostras têm todas o mesmo tamanho n, =n,=n,=6. 


1. O modelo (15.4) pode ser escrito na forma 
Yj=H+o+e, 
comi=1,...lej=1,... n; Dizemos que G,, é o efeito diferenciado da subpopulação P; ou do nível i do fator. Mostre que os 


estimadores de mínimos quadrados para [1 e (O são dados por 


ã E 1 
se impusermos a condição 5” ma, =0. 


2. Obtenha à, à ;, para os Exemplos 15.2 e 15.3. 


15.2 Modelo para Duas Subpopulações 


Inicialmente, consideremos o caso em que temos um fator com dois níveis, como no Exemplo 
15.1, com o fator sexo. Ou seja, queremos avaliar o efeito do sexo do indivíduo sobre o seu 
tempo de reação ao estímulo. Temos, então, o modelo 


Yyj = Wit e; (15.6) 
em que 
H; = efeito comum a todos os elementos do nível i = 1, 2; 
e;= efeito aleatório, não controlado, do j-ésimo indivíduo do nível i, 
Yi = tempo de reação ao estímulo do j-ésimo indivíduo do nível i. 


15.2.1 Suposições 


É necessário introduzir suposições sobre os erros e; à fim de fazer inferências sobre |, e |1,. 
Iremos admitir que: 
(e; MO, 0), para todos i=1,22]= 1,2, vg Mp 
(ii) E(e, ex) = 0, para j Z k ei = 1, 2, indicando independência entre observações dentro de 
cada subpopulação. 


(iii) E(e,, e») = 0, para todo j e k, indicando independência entre observações das duas 
subpopulações. 
Com essas suposições, temos duas amostras aleatórias simples, independentes entre si, 
retiradas das duas subpopulações N(y,, 0,2) e N(n,, 0,2). 
Queremos testar a hipótese 


Ho: |, = | 
contra a alternativa 
Hp,» 


Como já salientamos acima, esse teste pode ser conduzido com os métodos do Capítulo 13, 
mas o objetivo aqui é introduzir a metodologia da análise de variância, com um caso simples. A 
extensão para mais de dois níveis será estudada na Seção 15.3. 

Note que estamos supondo que as variâncias residuais dos níveis 1 e 2 são iguais, ou seja, 


Var(e,) = Var(e,)) = o,” para todo j = 1, ..., n,. (15.7) 
Essa é a propriedade conhecida como homoscedasticidade, isto é, estamos admitindo que a 


variabilidade residual é a mesma para os dois níveis (ou que P, e P, têm a mesma variabilidade 
segundo a v.a. Y). Note também que 


E(y;) = > Var(y,;) = Var(e,) = 02,. (15.8) 


15.2.2 Estimação do Modelo 


Nosso objetivo é estimar |,, |, e 0,7? no modelo (15.6), para podermos testar H,. Usaremos 
estimadores de mínimos quadrados. Poderíamos usar também estimadores de máxima 
verossimilhança, pois sabemos que nossas observações têm distribuição normal. Temos que, de 
(15.6), os resíduos são dados por 


e;=)Yj— Hp (15.9) 
e a soma dos quadrados dos resíduos é dada por 
SO(m,H,)= Se mM >> (4 =M, j 


lol jol 11 joel 


(+ (..) 


Ja ja 
ou seja, 
SO(mta)= 56%, + 36% (15.10) 
Ja Ja 
Observe que essa soma de quadrados é uma função de |, e, |,. Se as variâncias residuais das 
duas subpopulações não fossem iguais, essa soma seria mais afetada por aquele nível que tivesse 
maior variância, e isso deveria influenciar a escolha dos estimadores. Nesse caso, uma sugestão 
seria então minimizarmos a Fórmula (15.10) com e,? substituída por (e,/0,)º, com Var(e,) = 07, o 
que conduz a estimadores de mínimos quadrados ponderados. 
Derivando (15.10) em relação a |, e |, obtemos: 


do que segue que os estimadores são dados por 
pm yemfi (15.11) 
M jm 


f=15" =P (15.12) 
m 


que são as médias das observações dos níveis | e 2, respectivamente. Logo, 


SO(fuia)=5 =) +35) (15.13) 
Podemos pensar em (15.13) como a quantidade total de informação quadrática perdida pela 
adoção do modelo (15.6). Essa soma é também denominada soma dos quadrados dos resíduos. 
Vejamos outra maneira de escrever essa soma. Dentro do grupo dos homens, a variância da 
subpopulação P, pode ser estimada por 
| 


m-1 


SR) (15.14) 


Ja 


e a variância da subpopulação P, das mulheres é estimada por 


g=— S(y=5). (15.15) 


Segue-se que 
SQ(p; 15) = (n, - 1)S?, + (n,-1)S2,. (15.16) 
Temos, acima, dois estimadores não viesados do mesmo parâmetro 0,2 e, portanto, podemos 
definir uma variância amostral ponderada 


Si = (m —1)S2 + (m —1)S2 , (15.17) 


m+n,-2 


e, usando (15.16), podemos escrever 
s2 = SO(fvia) (15.18) 
n-2 
sen =n,+ n,. Vemos que S?, é a quantidade média de informação quadrática perdida e é um 
estimador não viesado de o2,. Observe que esse é o mesmo estimador definido em (13.10). 

Temos, portanto, um primeiro enfoque para estimar a variância desconhecida, 0,2, por meio da 
variância devida ao erro ou variância dentro de amostras, dada por S2, que é baseada nas 
variâncias amostrais, dadas por (15.14) e (15.15). A soma de quadrados (15.16) é também 
chamada de soma de quadradros dentro dos grupos. 

Um outro enfoque será visto mais adiante, e que consiste em estimar 0,2, por meio de uma 
variância entre amostras, baseada na variabilidade entre as médias amostrais, também chamada 
variação devida ao fator. 

Exemplo 15.1 (continuação) Para os dados da Tabela 15.1, temos: 


Grupo dos Homens (nível 1): 7,= 110,1, 5“ (y,- 1) =670,9,52 = 74,54; 


da jul 


Grupo das Mulheres (nível 2): 7,= 104,9, D,., (4-7; = 566,9, 52= 62,99. 


2; 


Segue-se que 
g2 = 970,9+566,9  1.237,8 
dá 18 RB 


Note que a soma dos quadrados dos resíduos é 
SQ(p; 1)= SQ (7, )5) = 1.237,8. 
Observe, também, que y, e y,, denotam os tempos médios estimados de reação ao estímulo dos 
homens e mulheres, respectivamente. 
Uma questão de interesse é a seguinte: será que o conhecimento do sexo de um indivíduo 
ajuda a melhorar a previsão do tempo de reação dele ao estímulo? Para responder a essa questão, 
devemos ter algum modelo alternativo para poder comparar os ganhos. O modelo usualmente 


adotado é o mais simples de todos, ou seja, aquele que considera os dados vindos de uma única 
população. Suponha que os valores da v.a. Y para todos os n = 20 indivíduos sigam o modelo 


y=n+e,i=1,2,..,20. (15.19) 


=68,77, 8,=8,29. 


Podemos considerar esse modelo para uma população, ou seja, aquela de todos os indivíduos 
para a qual queremos investigar o tempo de reação ao estímulo, independentemente do sexo, 
idade e outros fatores. 

Para o modelo (15.19) a soma dos quadrados dos resíduos é 

so(u)=5 => (wu), (15.20) 


e o estimador de mínimos quadrados de |, é obtido derivando-se (15.20) com relação a | e 
igualando a zero, chegando-se a 


a JE e 
h=52, =7, (15.21) 


ou seja, a média de todas as observações. Como aqui y, - N(n, 0,2), um estimador da variância 
residual 0,2 é 


st= 1 Sn -5j «SM (15.22) 


ou seja, a nossa conhecida variância amostral. 
Para os dados da Tabela 15.1, encontramos 


Assim, sem informação adicional, podemos prever o tempo de reação de um indivíduo como 
107,50, com um desvio padrão de 8,5. Os resíduos desse modelo e do modelo (15.6) estão na 
Tabela 15.4, colunas e(l) e e(2), respectivamente. Comparando esses resíduos, vemos que os 
segundos melhoram um pouco as previsões, isto é, fazem cair o erro quadrático médio de 8,5 
para 8,29. Mas essa queda nos parece pequena para justificar a inclusão do fator sexo no modelo, 
e talvez fosse preferível adotar o modelo mais simples (15.19). 


Tabela 15.4 Resíduos para vários modelos ajustados aos dados do Exemplo 15.1. 


o. Resíduos dos Modelos 
Variáveis 
e(1) e(2) e(3) 
Indivíduo | Tempo de Reação | Sexo | Idade yi y Yi i Yj ji 
Resíduos dos Modelos 
Variáveis 
e(2) e(3) 
Indivíduo | Tempo de Reação yo | 
1 96 H 14,1 2,50 
2 92 M 12,9 6,50 
3 106 H 441 7,50 
4 100 M -4,9 1,50 
5; 98 M 6,9 5,25) 
6 104 H 61 0,75 
7 110 H =0;1 6,75 
8 101 M 3,9 2,25 
9 116 M dis 8,25 
10 106 H 4,1 1,75 
id 109 H si 1,25 
12 100 M 4,9 7,75 
13 112 M it 1,25 
14 105 M 0,1 -5,75 
15 118 H 7,9 7,25 
16 108 H 5 -2,75 
17 113 M 8,1 -4,25 
18 112 M 74 -5,25 
19 127 H 16,9 9,75 
20 E H 6,9 —0,25 
dp. 8,29 6,08 
2d.p. 16,58 | 12,16 
Nota: Nesta tabela, estão expressos os resíduos de diversos modelos ajustados aos dados e colocados juntos para comparar os 


“lucros” na adoção de cada modelo. No texto, aparece o significado de cada coluna dos resíduos. 


15.2.3 Intervalos de Confiança 
Com as suposições feitas sobre os erros, podemos escrever 
Ji N(u02/n),%) - N(m02/m) (15.23) 


o que permite construir intervalos de confiança separados para os dois parâmetros |, e |, como 
já vimos anteriormente. Esses têm a forma 


S 
FitiTos i=12, (15.24) 


em que t, é o valor crítico da distribuição t de Student com v = n - 2 graus de liberdade, tal que 
P(-t,<tn-2)<t)=y,0<y<1. Observe que o número de graus de liberdade é (n - 2) e não n; - 
1, porque 


Z, Vn(%-u) 


e, portanto, as tem distribuição t(n - 2) pelo Teorema 7.1. Daqui, obtemos 


Win-2) e 


(15.24). 


Exemplo 15.1 (continuação) Para o Exemplo 15.1, temos: 
IC(t; 0,95) = 110,10 + (2,101)8,29/NÃO = [104,59; 115,61], 
IC(u,; 0,95) = 104,90 + (2,101)8,29/v10 = ]99,39; 110,41[, 
com tyos = 2,101 encontrado na Tabela V, com v = 18 graus de liberdade. 
Ainda, com as suposições feitas, podemos concluir que 


Z YoNqa o, mt demo), (15.25) 


de modo que a estatística 


” (= 3)-(H, —H,) 
E Sl/n +1/n, (15.26) 
tem distribuição t de Student com v=n, + n,-— 2 = n — 2 graus de liberdade, e um intervalo de 
confiança para a diferença |, — |, pode ser construído. 


Exemplo 15.1 (continuação) Para o exemplo, 
IC(u, 4; 0,95)= (3, — 3, )+ 1,8. 1/m + W/m 
=(110,1-104,9)+(2,101)(8,29) 1/10+1/10 = ]-2,59; 12,99. 


Este resultado implica que a hipótese 
Ho: Pp, = 1, (15.27) 


não pode ser rejeitada no nível a = 0,05, já que o zero pertence ao intervalo. Isso está de acordo 
com o resultado já apontado de que o conhecimento do sexo de um indivíduo não irá ajudar a 
prever o tempo de reação ao estímulo. 

O teste da hipótese para (15.27), com as suposições adotadas, é feito usando a estatística 
(15.26), com n, + n, — 2 g.1., obtendo-se o valor observado t, = 1,40, que, comparado com o valor 
crítico de 2,101(a = 5% e 18 g.1.), leva à não rejeição da hipótese, como foi visto acima. 


15.2.4 Tabela de Análise de Variância 


As operações processadas anteriormente podem ser resumidas num quadro, para facilitar a 
análise. Se (15.27) for válida, o modelo adotado será 
Yj=H+e; 
e a quantidade de informação perdida (devida aos resíduos) será dada por 


so(i)= 55 (»=5), (15.28) 


que iremos chamar de soma de quadrados total, abreviadamente, SQTot. 

Analogamente, adotado o modelo (15.4), a quantidade de informação perdida é dada por 
(15.13) ou (15.16), e que chamamos de soma de quadrados dos resíduos, abreviadamente, 
SQRes, ou soma de quadrados dentro dos dois grupos, abreviadamente, SQDen. 

A economia obtida ao passarmos de um modelo para outro será 


SQTot - SQDen = SQEnt, (15.29) 
que chamaremos de soma de quadrados entre grupos. Não é difícil provar que (veja o Problema 
18) 
SQEnt = 51, (5,- 5). (15.30) 


Observando essa expressão, vemos que ela representa a variabilidade entre as médias 
amostrais, ou seja, uma “distância” entre a média de cada grupo e a média global. Donde o nome 
“soma de quadrados entre grupos”. Quanto mais diferentes forem as médias y, i = 1, 2, maior 
será SQEnt e, consequentemente, menor será SQDen. 

As quantidades 


QMTot « SR (15.31) 


QMDen = “area (15.32) 


são chamadas quadrado médio total e quadrado médio dentro (ou residual), respectivamente. 
Todas essas informações são agrupadas numa única tabela, conhecida pelo nome de ANOVA 
(abreviação de ANalysis Of VAriance), descrita na Tabela 15.5. 


Tabela 15.5 Tabela de Análise de Variância (ANOVA). 


Ev. | gl | sQ QM F 
Entre 1 SQEnt QMEnt QMEnt'S,? 


Dentro | n-2 | SQDen | QMDen (ou S?) 


Total |n-1 | SQTot | QMTot (ou S?) 


Na primeira coluna, temos as descrições das diferentes somas de quadrados, tecnicamente 
indicadas por fontes de variação (F.V.). Os graus de liberdade (g.1.) da segunda coluna estão 
associados às respectivas somas de quadrados, sendo que o número de g.l. da SQEnt é obtido por 
subtração. Falaremos abaixo sobre QMEnt e a razão F = QMEnt/QMDen. 


Exemplo 15.1 (continuação) Com os dados obtidos anteriormente para o Exemplo 15.1, podemos 
construir a tabela ANOVA para o modelo (15.4). O resultado está na Tabela 15.6. 


Tabela 15.6 Tabela ANOVA para o Exemplo 15.1. 


Da ANOVA encontramos os desvios padrões residuais s, =./68,77 =8,29 do “modelo completo” 
(15.4) e s=/72,26 =8,50, do “modelo reduzido” (15.19). A economia propiciada ao passar de um 
modelo para outro, em termos de soma de quadrados, é 135,20, e em termos de quadrados 
médios, comparando 72,26 e 68,77. Proporcionalmente, economizamos 


135,20 

1.373,00 
ou seja, aproximadamente 10% na SQ de resíduos. Podemos dizer que essa é a proporção da 
variação explicada pelo modelo (15.9). Essa medida é chamada coeficiente de explicação do 
modelo, denotada por 


= 0,0985 = 9,85%, 


Do (15,35) 


Essa medida já foi usada na Seção 4.6. Veja o Problema 27. 

A conveniência ou não do modelo (15.4) está associada ao teste (15.27), já que aceitar essa 
hipótese implica a adoção do modelo (15.19). Com as suposições feitas, a estatística para o teste 
é (15.26), que, sob H, fica 


x ZA x 


que tem distribuição t(n, + n, — 2). Também sabemos que o quadrado de T tem distribuição F(1, 
n,+n,— 2) (ver Seção 13.3). Contudo, 


QMEnt =SQEnt= (7-7) +m(P- FP, 
e como 


podemos escrever 


-Mh (5.5 à (=D) 
ut UA Sa) = Vim + 1n, (15.55) 


Logo, concluímos que 


— (R-R) qMEm. 
T= TUE 7 F. (15.36) 
Essa é a estatística que aparece na última coluna da tabela ANOVA. Portanto, podemos usar 
F, com (1, n — 2) graus de liberdade para testar a hipótese (15.27). Rejeitaremos H, se F > c, c 
determinado pelo nível de significância do teste. 


Exemplo 15.4 Da ANOVA da Tabela 15.6, vemos que o valor da estatística F é 1,97. Consultando a 
Tabela VI, com (1,18) g.l. e « = 0,05, encontramos o valor crítico 4,41. Logo, não rejeitamos Ho: 
H, = |. Isso significa que não há vantagem em usar o modelo (15.4) no lugar de (15.19). 


3. Na tabela abaixo estão os dados referentes a uma amostra de 21 alunos do primeiro ano de um curso universitário. As 
variáveis são: 
Y: nota obtida na primeira prova do curso; 
X: se cursou escola particular (P) ou oficial (O); 
Z: o período em que está matriculado: manhã (M), tarde (T), noite (N). 


Considere o modelo y;= H +e,i=1,2,...,21,e,7 N(0, 0”). Obtenha os erros quadráticos médios de |” e &º. Construa 


intervalos de confiança para |l e O 2, com coeficiente de confiança 95%. Analise os resíduos do modelo. 

4. Usando os dados do Problema 3, você diria que o fato de a pessoa ter cursado a escola particular ou oficial influi no resultado 
da primeira prova? Siga todos os passos do Exemplo 15.1 para responder a essa pergunta. 

5. Usando os dados do Exemplo 15.2, você diria que o fato de estudar durante o dia ou à noite afeta o desempenho dos alunos? 

6. Numa pesquisa sobre rendimentos por hora, com assalariados segundo o grau de instrução, obtiveram-se os dados da tabela 
abaixo. Construa a tabela ANOVA e verifique se existe diferença significativa entre os rendimentos das duas categorias. 


Escolaridade | n Dx, 9] 


Fundamental | 50 | 111,50 | 259,93 
Médio 20 | 71,00 | 258,89 


[Observação: rendimentos (x) expressos como porcentagem do salário mínimo.] 
7. Obtenha a tabela ANOVA para o Exemplo 15.3, usando o fator regime com os níveis 1 e 2. 


15.3 Modelo para Mais de Duas Subpopulações 


Para ilustrar essa situação, vamos considerar o fator idade para o Exemplo 15.1. Consideremos 
o modelo 


Yj = Wi + e;, (15.37) 


para i = 1,2,3, 4, 5 (níveis de idade) e j = 1, 2, 3, 4 (quatro indivíduos para cada nível de idade). 
Na Figura 15.2, temos os box plots da variável resposta (tempo de reação estímulo), para cada 
nível do fator idade. Vemos claramente que o tempo aumenta com a idade. 


Figura 15.2 Box plots para a variável Y (estímulo) para cada nível de idade. R. 


Agora, queremos minimizar 
ABR | 2 
SQ(H,s--stis)= > (»%, —44) » (15.38) 
lol Jal 
com as hipóteses E(e,) = 0, para todo i, j e Var(e,) = o,”, para todo i, j. É fácil verificar que os 
estimadores das médias |,. são 


n 15 y =J, 1=1,2,.,5, (15.39) 
h, jd 


e que 
SA 
SQDen=SQRes=S0 (fl...) = > (»,-5,), 


1=1 Jal 


ou seja, 
$ 
SQDen => (n,-1)S2, 
Fi! 


em que S? é variância amostral do i-ésimo nível (grupo de idade). Todas essas variâncias 
amostrais são estimadores não viesados de o,?, logo pode-se, novamente, considerar o estimador 
ponderado 


s2= E ali —1)82 E Falem, (15.40) 
n—- 


g n-5 


Para nossos dados, obtemos: 
(1) i=1 (20 anos) 


-y,=985, Dulny-H) =107,0,87=35,67 

(2) i = 2 (25 anos) 
—-y,= 103,25, Dao -%) =78,75, 83 =26,25 

(3) i=3 (30 anos) 
—y, = 107,75, Dalva- 5) =132,75, 83 = 44,25 

(4) i = 4 (35 anos) 
—y,= 110,75, Soa(vy a) =94,75, S3=31,58 

(5) i = 5 (40 anos) 
—y,= 117,25, Dia(vs- e) =140,75, S2= 46,92. 


Segue-se que 
S2 = 554/15 = 36,93, 8, = 6,08. 
A tabela ANOVA para o fator idade está na Tabela 15.7. 


Tabela 15.7 Tabela ANOVA para o Exemplo 15.1, com fator idade. 


Da tabela concluímos que houve uma redução substancial na soma de quadrados (819 
unidades quadradas), ou seja, 


isto é, aproximadamente 60% da variação total é explicada pelo fator idade, reduzindo o erro 
quadrático médio de 8,50 para 6,08. 

Como antes, podemos construir os intervalos de confiança para os parâmetros |. Por exemplo, 
para o grupo de idade de 25 anos, 


(2,131)(6,08 


1IC(p,;0,95) = 103,25 + > | -96,77;109, 71. 


Os resíduos desse modelo encontram-se na Tabela 15.4, coluna e(3), e verificamos que eles 
diminuíram bastante, indicando a boa capacidade de previsão do modelo. A análise dos resíduos 
na Figura 15.3 não sugere violação de nenhuma das suposições feitas. 


Figura 15.3 Resíduos do modelo y, = |, + e, para o fator idade. 
ij i ij 
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A hipótese 
Ho p,=.-..= | (15.41) 


pode ser testada usando-se o valor 5,54 da estatística F. Da Tabela VI encontramos que o valor 
crítico de F(4,15), com a = 0,05, é 3,06, logo rejeitamos H,. Ou seja, há evidências de que os 
tempos médios de reação para os diversos grupos de idade não sejam todos iguais. 


8. Usando os dados do Problema 3, você diria que o período que o aluno está cursando influencia seu desempenho na primeira 
prova? 
9. Continuação do Problema 6. Na pesquisa de salário, acrescentou-se uma amostra de universitários. 
(a) O grau de escolaridade influencia os rendimentos? 
(b) Qual seria o rendimento médio para pessoas com formação universitária? 
(c) Existe diferença entre os rendimentos médios daqueles com instrução universitária e assalariados com primeiro grau? Com 
segundo grau? 


Escolaridade 


Fundamental 
Médio 


Superior 


10. Quer-se verificar a durabilidade de duas marcas de tintas que têm preços de custo bem diferenciados. Para isso foram 
selecionadas dez casas, cinco pintadas com a marca A e as cinco restantes pintadas com a marca B. Após um período de seis 
meses, foi atribuída a cada casa uma nota, resultante de vários quesitos. Os resultados foram os seguintes: 


Marca A |85/87/92/]80]84 
MarcaB |91/91/92]86]90 


Com esses dados, você diria que uma das marcas é melhor do que a outra? 


15.4 Comparações entre as Médias 


A análise de variância é apenas o primeiro passo no estudo de comparação de médias de vários 
grupos. Quando o modelo que está sendo testado apresenta pouco poder de previsão, ou seja, 
quando não houver evidências para rejeitar a hipótese de igualdade entre as médias, então a 
análise é final. O fator que está sendo investigado não produz efeito nenhum sobre a variável 
resposta. 

Entretanto, quando o teste rejeita a hipótese de igualdade (15.2), estamos afirmando que 
ocorre pelo menos uma desigualdade, e essa conclusão na maioria dos casos não é suficiente para 
o pesquisador. Ele deseja saber de que modo ocorre essa desigualdade. Como ilustração, suponha 
que se rejeite a hipótese H,: |, = |, = |,. Então, existem as seguintes possibilidades para a 
alternativa: 

(D) py = 1, % DP» (2) pH, é 0, =H (3)p, =|;0,e (4) |; É |, É Ho. 

Existem vários métodos para resolver esse problema, e alguns deles podem ser vistos em Peres 
e Saldiva (1982). Aqui iremos discutir apenas um deles. 

Um modo de investigar a causa da rejeição é comparar os grupos dois a dois. Como já foi 


visto na Seção 15.2, isso pode ser feito por meio da construção de intervalos de confiança para a 
diferença, obtendo-se, por exemplo, 


IC(m = Hor)= (1 3)£48.V1/m +1/m, (15.42) 
com t, obtido de uma distribuição t de Student com n — I graus de liberdade. Poderíamos, então, 
construir os intervalos para todos os possíveis pares e, observando-se aqueles que não contêm o 
valor zero, obter conclusões sobre a razão da rejeição. 
Exemplo 15.5 Investigando o efeito da idade, vimos que a hipótese H, foi rejeitada. O intervalo de 
confiança para a diferença de duas médias quaisquer seria dado por 
IC(u, -4,:0,95)=(3,- 7,)+(2,131)(6,08) Vi/4+ 1/4, 
=(7-7,)+9,16. 
Segue-se que grupos de idade cuja diferença de médias seja superior a 9,16 seriam diferentes. 


Na Tabela 15.8, observa-se que se aceita a igualdade apenas para grupos vizinhos, indicando 
uma relação mais forte entre as variáveis, fato que será explorado no próximo capítulo. 


Tabela 15.8 Médias e diferenças de médias para os diversos grupos de idades para o Exemplo 15.1. 


No entanto, com esse procedimento não se pode controlar as probabilidades do erro de tipo 1, 
ou seja, a probabilidade de rejeitar uma hipótese verdadeira. Por exemplo, suponhamos que todas 
as médias sejam iguais. No problema acima, com cinco grupos e sob 
a hipótese nula, teríamos então [5)- 10 possíveis comparações duas a duas, cada uma 
testada no nível de 5%, e a probabilidade de que pelo menos uma das comparações exceda 9,16 é 
bem maior do que 5% (na realidade, pode ser mostrado que essa probabilidade está em torno de 
29%). Essa probabilidade cresce com o número de comparações. Para controlar melhor essa 


probabilidade global do erro de tipo I, pode ser usada uma correção, baseada na desigualdade de 
Bonferroni (ver Problema 19). Usa-se, então, o intervalo 


1C(u, - mv)=(5, - 3)+ 68 i/m +I/n,, (15.43) 
em que o único valor que muda é o de É, que tem o mesmo número de graus de liberdade, mas o 
nível de significância agora é o” = a/m, em que m é o número de comparações duas a duas que 
desejamos fazer. 
Exemplo 15.6 No Exemplo 15.5, o” = 0,05/10 = 0,005. Da Tabela V, com 15 graus de liberdade, 
encontramos t” = 3,438 (obtido por interpolação linear) e então 
1C(u, - 11,:0,95)= (7; - 7, )+ (3,438)(6,08) (1/2 
=(5,-5,)+14,78. 

Rejeitaremos H, para diferenças maiores do que 14,78 e vemos que apenas existe diferença 
entre os grupos de 20 e 40 anos. 

Os intervalos de Bonferroni são conservadores, pois o nível o” real será menor do que aquele 


nominal, e essa diferença aumenta com m. Portanto, recomenda-se que o seu uso seja restrito a 
um número pequeno de comparações. 


11. Queremos verificar o efeito do tipo de impermeabilização em lajes de concreto. As quantidades de água que passaram pela 
laje, em cada tipo, foram medidas durante um mês, obtendo-se os valores da tabela abaixo. Que conclusão pode obter? 


LR A 


56 | 64 | 45 | 42 
55 |61|46]39 
62/50 ]45|45 
59 | 55 |39 | 43 
60/56/43 |41 


12. Os dados abaixo vêm de um experimento completamente aleatorizado, em que 5 processos de estocagem foram usados com 
um produto perecível por absorção de água. 25 exemplares desse produto foram divididos em cinco grupos de cinco elementos, e 
após uma semana mediu-se a quantidade de água absorvida. Os resultados codificados estão no quadro abaixo. Existem 
evidências de que os processos de estocagem produzem resultados diferentes? 


Sexo 


oln ls oco|liz 
o 
1) 
ju ao slto 


15.5 Teste de Homoscedasticidade 


Uma das suposições básicas para a aplicação da técnica de ANOVA é a de 
homoscedasticidade, ou seja, que a variância seja a mesma em todos os níveis. Muitas vezes, não 
podemos garantir a priori se essa suposição é adequada, e podemos analisar os dados para obter 


uma resposta. Podemos fazer uma inspeção visual ou um teste. A seguir apresentaremos o teste 
de Barlett para testar a igualdade de variâncias (veja Dixon e Massey, 1957): 


H,:02,=02,=...=02,(15.44) 
As informações de que dispomos são: os tamanhos amostrais n, e variâncias amostrais S2 = 1, 
2,.,1, comn=n,+..+n, 
O teste é construído do seguinte modo: 
(i) calcule a variância comum 


E ps (n, —1)s; - SQDen 
z n=1 “p= 


= QMbDen; 


(ii) calcule 
M=(n-1)tnS2 — a —1)tnS;; 


4=1 


cala) (e) 


(iv) construa a estatística M/C, que segue uma distribuição aproximada qui-quadrado, com I — 
1 g.l., para amostras grandes. Esquematicamente, 


MIC - Wi (I-1). 


Exemplo 15.7 Voltemos aos dados do tempo de reação ao estímulo como função da idade. Da 
amostra obtemos os seguintes resultados: 


(iii) calcule 


Grupo etário 


Tamanho amostra 


Variância 35,67 | 26,25 | 44,25 | 31,58 | 46,92 


Seguindo os passos (i) — (iv) acima, obtemos: 
(1) S2 = 36,93; 
(ii) M = (20 — 5)rn(36,93) — 3[1n(35,67) + ... + «n(46,92)] = 0,36; 


ao ad 15 Fl gas 
(ii) Coirss ami] -uIs 


(iv) M/C = (0,36)/(1,13) = 0,32. 
Consultando a Tabela IV, com 4 g.l. e a = 0,05, encontramos x? = 11,1, e portanto não 
rejeitamos a hipótese H, de igualdade de variâncias. 


15.6 Exemplo Computacional 


Vamos utilizar o Minitab para ilustrar o uso de um pacote para resolver um problema de 
análise de variância. Retomemos o Exemplo 15.1, como fator idade. O Quadro 15.1 mostra a 
saída do Minitab, usando a opção ANOVA do menu. Observe que os valores encontrados 
coincidem com aqueles já obtidos na Seção 15.3, Tabela 15.7. O valor-p do teste de igualdade de 
médias é indicado por P = 0,006. A saída mostra também as estimativas das médias dos grupos, 
os desvios padrões e o desvio padrão ponderado, S, = 6,08. Os intervalos de confiança 


individuais estão mostrados de forma pictórica, com uma escala anexa, notando-se intersecções 
que levam à rejeição da hipótese de igualdade de médias. 


Quadro 15.1 ANOVA para o Exemplo 15.1. Minitab. 


One-way Analysis of Variance 
Analysis of Variance for C1 
Source DF SS MS F P 

C2 4 819.0 204.8 5.54 0.006 


Error 15 554.0 36.9 


Total 19 1373.0 


Individual 95% CIs For Mean 
Based on Pooled StDev 


Level N Mean StDev 


20 4 98.50 5.97 ( 

25 4 103.25 5.12 ( 

30 4 107.75 6.65 ( 

35 4 110.75 5.62 ( 

40 4 117.25 6.85 ( 
+ 


Pooled StDev = 6.08 100 110 120 


Na Figura 15.3, temos os resíduos para cada nível do fator idade, bem como os resíduos para 
todas as idades. Na Figura 15.4, vemos os box plots desses resíduos, por nível, e na Figura 15.5, 
o box plot dos resíduos para todas as idades. 


Figura 15.4 Box plots para os resíduos por nível do fator idade. R. 


= 


“ 
] 


Figura 15.5 Boxplot para os resíduos de todas as idades. 
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15.7 Problemas Suplementares 


13. A seção de treinamento de uma empresa quer saber qual de três métodos de ensino é mais eficaz. O encarregado de responder 
a essa pergunta pode dispor de 24 pessoas para verificar a hipótese. Ele as dividiu em três grupos de oito pessoas, de modo 
aleatório, e submeteu cada grupo a um dos métodos. Após o treinamento os 24 participantes foram submetidos a um mesmo teste, 
cujos resultados estão na tabela abaixo (quanto maior a nota, melhor o resultado). Quais seriam as conclusões sobre os métodos 


de treinamento? 


Método 1 Método 3 


3 8 6 7 
5 4 79 
2.3 8 10 
4 9 6 9 

Lx, 38 62 

Lx? 224 496 


14. Quer-se testar o efeito do tipo de embalagem sobre as vendas do sabonete Sebo. As embalagens são as seguintes: 

A: a tradicional embalagem preta B: cartolina vermelha C: papel alumínio rosa 

Escolheram-se três territórios de venda, com potenciais de vendas supostamente idênticos. 

Cada tipo de embalagem foi designado aleatoriamente a uma região e as vendas observadas durante 4 semanas, obtendo-se os 
resultados da tabela abaixo. Quais seriam suas conclusões e críticas a esse experimento? 


Réplicas | Embalagens 
(Semanas) | A | BIC 


1 15:] 21 | :9 
2 20 | 23 | 13 
3 9: | 49 |20 
+ 12/25/18 


Total 56 | 88 | 60 


15. Um produtor de gelatina em pó está testando um novo lançamento e quer verificar em que condições de preparo o produto 
seria mais bem aceito. Vinte e quatro donas de casa atribuíram notas (0 a 10) para o prato que produziram com o produto. Junto 
com o produto foram fornecidos quatro tipos de receitas: duas para doces (A e D) e duas para salgados (B e C). Feita a análise 
estatística, quais recomendações você faria ao produtor? Discuta a validade das suposições feitas para resolver o problema. 


Receita 


SO NI UN 
pp Ho Now 


16. Num curso de extensão universitária, entre outras informações, obteve-se informação sobre salário e área de formação 
acadêmica, com os seguintes resultados: 


Formação | n; —x s 


Humanas | 65 | 28,75 | 3,54 
Exatas 12 | 35,21 | 5,46 
Biológicas | 8 | 43,90 | 4,93 


Aqui, n; indica a frequência, —x o salário médio, e s o desvio padrão amostral. Teste a hipótese de que os salários médios nessas 
três áreas são iguais. 

17. Suspeita-se que quatro livros, escritos sob pseudônimo, são de um único autor. Uma pequena investigação inicial selecionou 
amostras de páginas de cada um dos livros, contando-se o número de vezes que determinada construção sintática foi usada. Com 
os resultados abaixo, quais seriam as suas conclusões? 


18. Prove que QMEnt = 5'n,(7,- 5)”. 
19. Construa uma ANOVA completa para os Exemplos 15.2 e 15.3. 
20. Usando a proposta do Problema 19 e os dados do Exemplo 15.3, teste Ho: |, = Ho — Hs, com O = 0,05. 
21. Teste a igualdade de variâncias para o Exemplo 15.3. 
22. As vendas diárias (Y) de um grande centro de compras seguem uma distribuição normal com média igual a $ 100 e desvio 
padrão igual a $ 20. 
(a) Qual o intervalo que contém 95% das vendas diárias? 
(b) Se —X representar a média de amostras de vendas de nove dias, qual intervalo conterá 95% das médias? 
(c) Compare e interprete os dois intervalos acima. 


Suponha, agora, que não se conheça nem a média nem o desvio padrão da população. Sorteou-se uma amostra de nove dias 
com as seguintes vendas diárias: 


157 162 135 136 154 178 180 127 128 


(d) Qual a melhor estimativa para a média populacional? 
(e) E para o desvio padrão populacional? 
(f) Construa um intervalo de confiança (IC) de 95% para a média populacional. 
(9) Construa um IC para a variância populacional. 
(h) Explique em poucas palavras o significado dos intervalos obtidos em (f) e (g). 
(i) Suponha, agora, que baseado nessa amostra você deva responder à pergunta (a). 
Como você não conhece a média e a variância populacional, você decide “emprestar” os respectivos valores da amostra e 
calcular o intervalo. Qual seria esse intervalo? Você tem alguma restrição a essa resposta? 
(j) Usando (15.47), construa o IP e interprete o resultado. 
(k) Compare com a resposta dado em (h), explicando a diferença entre eles. 
23. Mostre que o IP para uma observação futura Y;,, do i-ésimo grupo, pode ser escrito como: 


IP(K:1 ) = 5; 1,5, + 
(! 


e calcule o IP para uma pessoa de 40 anos no Exemplo 15.1. Compare com o respectivo IC para a média do mesmo grupo. 
24. Conduziu-se um estudo-piloto para determinar qual o intervalo de normalidade para o peso de crianças com dez anos de 


idade. Usando-se uma amostra de 50 crianças, encontrou-se o peso X de cada uma delas, com os seguintes resultados: La; = 


1.639,5 kg e Epp = 56.950,33 kg? Com esses dados, quais seriam os limites de um intervalo para que crianças com dez anos de 
idade fossem consideradas como tendo peso normal? 
25. Prove a equivalência das Expressões (15.33) e (4.13). 


15.8 Complementos Metodológicos 


1. Contrastes Múltiplos. Quando consideramos testar a hipótese 1; = Hy dentre as I médias, a região crítica de nível a será dada 
por 


[=> tnSevl/m+1/n,, (15.45) 


na qual t,, encontra-se na Tabela V, com n - I graus de liberdade e tal que P(lt > tao) = O. 


A aplicação desse método apresenta um problema, que tem sido bastante estudado e é conhecido como o problema de contrastes 
múltiplos. 


No nosso Exemplo 15.1, com quatro observações por grupo de idade, teremos de aplicar (15.45) para cada uma das m=[5)- 10 
possíveis comparações de médias duas a duas. Se Ot = 0,05, por exemplo, teremos 


P(ji -5|<408.V1/2)=0,95, (15.46) 


e a probabilidade de que se verifiquem as dez condições (15.46), supondo independência, é (0,95)10 = 0,598, e não 0,95. 
Portanto, aplicando-se o teste várias vezes, é provável que apareçam diferenças entre grupos, mesmo que elas não existam. 
Um método que resolve o problema é baseado na desigualdade de Bonferroni. Seja A, o evento que consiste em rejeitar a hipótese 


H; = H, sendo que essa hipótese é verdadeira. Suponha que P(A,) = Q. Se B for o evento tal que rejeitamos pelo menos uma das 
hipóteses, quando ela é verdadeira, então 

BEA UVA Us UA: 
Segue-se da desigualdade de Bonferroni que 

P(B)=P(AUA,U..UA)<> P(A,)= ma. 
tel 

Se indicarmos por Ot* a probabilidade do erro do tipo I global para os m contrastes, P(B) < O*, logo tomamos o nível de cada 
contraste como 


«= o*m. 


Para m grande, OX pode ser tão pequeno que não o encontramos em tabelas da distribuição t de Student. Pode-se usar a 
aproximação 


na qual v é o número de graus de liberdade da distribuição t e Z, é o valor da N(0, 1) tal que P(Z > Z) = O. 
2. Intervalo de predição. Vamos supor adotado o modelo (15.19) para a variável Y e desejamos prever uma observação futura Y,. 
Pelo modelo adotado, podemos escrever que 
=u+ 
Y=n+E, 
que poderá ser estimado por Y, =y+ Er, e por desconhecer Er substituímo-lo por seu valor esperado, que é zero. Logo, o 


estimador (ou predição) da futura observação será a média da amostra. Admitindo a observação futura como independente das 
observações anteriores, podemos escrever 
ai 


Var(Y, )=Var(7)+V =-"L+ol=02| —+1 |, 
ar( 4) ar(7) ar(s, ) ro oil 
e que será estimada por 

— fo 1 

Rd é 

Var(F, )=52 (+) 
Usando a mesma argumentação para a construção de intervalos de confiança, podemos construir um IC para a futura observação, 
que chamaremos de intervalo de predição (IP), do seguinte modo: 


IP(L,;v)=Pt45, o. (15.47) 


Capítulo 16 


Regressão Linear Simples 


16.1 Introdução 


No Capítulo 8, introduzimos o conceito de regressão para duas v.a. quantitativas, X e Y. Vimos 
que a esperança condicional de Y, dado que X = x, por exemplo, denotada por E(Y|x), é uma 
função de x, ou seja, 


E(YP9 = a(o. (16.1) 

Em (8.27) definimos precisamente essa função. Uma definição similar vale para E(Xly), que 
será uma função de y. Estamos considerando aqui o caso em que X e Y são definidas sobre uma 
mesma população P. Por exemplo, X pode ser a idade e Y o tempo de reação ao estímulo, no 
Exemplo 15.1. Nesse exemplo, a análise sugeriu a existência de uma relação mais forte entre as 
duas variáveis, e a modelamos por 


= tepi= 1, 0,5, j= 1, 4 (16.2) 


em que nu, é a média do grupo de idade i. Podemos pensar que o fator idade determina cinco 
subpopulações (ou estratos) em P e de lá escolhemos cinco amostras aleatórias de tamanhos n, = 
4,i=1,...,5. 

Em (16.1), p(x) pode ser qualquer função de x; veja o Exemplo 8.21. Um caso simples de 
interesse é aquele em que X e Y têm distribuição conjunta normal bidimensional. Nesse caso, 
HC) e W(y) são, de fato, funções lineares. Veja a Seção 8.8. 

Continuando com o Exemplo 15.1, tanto X (idade) como Y (tempo de resposta ao estímulo) 
são v.a. contínuas, e podemos pensar em introduzir um modelo alternativo para y,, dada a relação 
entre X e Y. Observando as médias de Y, segundo os grupos de idades, ou seja, E(Y|x), 
percebemos que estas aumentam conforme as pessoas envelhecem. A Figura 16.1 mostra os 
dados observados, na qual notamos uma tendência crescente, bem como os valores repetidos de 
Y para cada nível de idade x. 

Um modelo razoável para E(Y|x) pode ser 


E(YP9 = p(x) = 0 + Px, (16.3) 
ou seja, o tempo médio de reação é uma função linear da idade. 


Figura 16.1 Gráfico de dispersão de idade e reação ao estímulo, com reta ajustada. 


» 2 30 35 40 
Idade (x) 


A forma da função |(x) deve ser definida pelo pesquisador, em função do grau de 
conhecimento teórico que ele tem do fenômeno sob estudo. Um modelo alternativo a (16.2) 
seria, então, 


Yy = p(x) + e; (16.4) 


com E(Y|x;)) = u(x) = «+ Bx, i = 1, 2, ..., 5. Entretanto, a forma usual de escrever o modelo é 


Y; = (x) + e, (16.5) 
em que y, indica o tempo de reação do i-ésimo indivíduo com x, anos de idade, i= 1,2,..,n,en 
é o número total de observações. Teremos, então, com essa notação, valores repetidos para X, por 
exemplo, x, =... = x, = 20. Convém reforçar a ideia que estamos propondo um modelo de 
comportamento para as médias das subpopulações, logo teremos de estimar os parâmetros 
envolvidos na função p(x), baseados numa amostra de n = 20 observações, no exemplo. 
No caso de (16.3), o modelo pode ser escrito como 


y,=E(Yx)+e,=a+bx, +e,i=1,2,...,n, (16.6) 


devendo-se encontrar os valores mais prováveis para a e B, segundo algum critério, a partir de n 
observações de pares de valores de (X, Y). 

Antes de prosseguirmos, seria conveniente interpretar os parâmetros envolvidos no modelo 
(16.5). Sabemos que q, o intercepto, representa o ponto onde a reta corta o eixo das ordenadas, e 
B, o coeficiente angular, representa o quanto varia a média de Y para um aumento de uma 
unidade da variável X. Esses parâmetros estão representados na Figura 16.2. 

Voltando ao nosso exemplo, em que X é a idade e Y o tempo de reação, B representa o 
acréscimo no tempo médio de reação para cada ano de envelhecimento das pessoas. Aqui 4 
representa o tempo de reação para a idade zero (recém-nascido), o que é uma inadequação do 
modelo. 


Figura 16.2 Representação do modelo E(Y|x) = O + Bx. 
v+ 


EV |) = + fix 


“+ 


Observação. Chamamos (16.3) de modelo linear, pois este representa uma reta. Todavia, em casos 
mais gerais, o termo linear refere-se ao modo como os parâmetros entram no modelo, ou seja, de 
forma linear. Por exemplo, o modelo 


ECY|o) = q + Bx + yx?, 
embora graficamente represente uma parábola, é modelo linear em q, B e y. Por outro lado, 
E(Y|x) = ce” (16.7) 


não é um modelo linear em a e B. 

Determinados modelos não lineares podem ser transformados em lineares, por meio de 

transformações das variáveis. Assim, tomando-se o logaritmo (de base e) em (16.7) obtemos 
LnE(Y|x) = ên(o) + Bx = + Bx, 
que é linear em o' e p. 

Ao lado de um tratamento formal para estudar o modelo (16.6), devemos usar as técnicas de 
análise de dados que estudamos na Parte 1 do livro. Em particular, podemos fazer diversos tipos 
de gráficos antes que o modelo seja ajustado, durante o processo de ajuste e, finalmente, depois 
que o modelo foi ajustado. 

A Figura 16.1 é um exemplo de um gráfico que deve ser feito antes de selecionar o modelo. 
Ou seja, temos um gráfico de dispersão entre as variáveis X (idade) e Y (tempo de reação ao 
estímulo). Esse tipo de diagrama permite ver qual o tipo de relação existente entre as variáveis, 
se há valores atípicos, se há valores repetidos (como no Exemplo 15.1), se a variabilidade de Y 
está aumentando ou não com X etc. Nesse mesmo exemplo, se decidirmos incluir a variável 
“acuidade visual” no modelo, teríamos duas variáveis explicativas e poderíamos fazer, por 
exemplo, gráficos de dispersão entre a resposta e cada variável explicativa e entre as duas 
variáveis explicativas. Este último nos daria uma ideia do planejamento envolvido, ou seja, se os 
pares de valores das variáveis explicativas estão cobrindo o plano (x, x,), se há grupos de pontos 
etc. 

Exemplos de gráficos depois do ajuste serão vistos na Seção 16.5, quando fizermos uma 
análise dos resíduos, para avaliar a adequação do modelo aos dados. Gráficos durante o ajuste 
são utilizados quando estudarmos a possibilidade de considerar vários modelos alternativos para 
o problema em questão. Esse tópico não será explorado com detalhes no livro. 


16.2 Estimação dos Parâmetros 


Como no capítulo anterior, iremos encontrar os estimadores de mínimos quadrados para os 
parâmetros do modelo linear (16.6), mas o mesmo desenvolvimento pode ser aplicado em 
modelos mais complexos. Será necessário ainda introduzir algumas suposições para as v.a. 
envolvidas. A primeira delas é que a variável X é por hipótese controlada e não está sujeita a 
variações aleatórias. Dizemos que X é uma variável fixa (ou sem erro ou determinística). 
Segundo, para dado valor x de X, os erros distribuem-se ao redor da média a + Bx com média 
zero, isto é, 


E(ex) = 0. (16.8) 


Em terceiro lugar, e pela mesma razão apresentada no capítulo anterior, devemos supor que os 
erros tenham a mesma variabilidade em torno dos níveis de X, ou seja, 


Var(e |x) = 02,. (16.9) 


E em quarto lugar, introduziremos a restrição de que os erros sejam não correlacionados. 


Colhida uma amostra de n indivíduos, teremos n pares de valores (x, y), i = 1,..., n, que 
devem satisfazer ao modelo (16.6), isto é, 
y;=a+Px+e,i=1,..,n. (16.10) 


Temos, então, n equações e n + 2 incógnitas (a, B, e, e, ..., e,). Precisamos introduzir um 
critério que permita encontrar a e B. Como no capítulo anterior, vamos adotar o critério que 
consiste em encontrar os valores de q e 8 que minimizam a soma dos quadrados dos erros, dados 
por 

e=y; (u+Bx), i=1,...,n. (16.11) 


Obtemos, então, a quantidade de informação perdida pelo modelo ou soma dos quadrados dos 
erros (ou desvios) 
sQ(a,B)=5.e2=5[9, -(0:+Bx,). (16.12) 


tel 
Para cada valor de q e B teremos um resultado para essa soma de quadrados, e a solução de 
mínimos quadrados (MQ) é aquela que torna essa soma mínima. Temos, então, o problema de 
encontrar o mínimo de uma função de duas variáveis, a e B, no caso (ver Morettin et al., 2005). 
Derivando em relação a a e B e igualando a zero, observamos que as soluções «a e 6 devem 
satisfazer 


nã + B> x =>» 
ú E: (16.13) 
> x, +B> 2 =5 xy, 
a ia ma 
as quais produzem as soluções 
à=y- Px, 
sy XY, — ny 
a (16.14) 
px x? — nx? 


Substituindo em (16.3), teremos o estimador para a média p(x), dado por 
PQ) =a+px, i=1,...,n, (16.15) 


que iremos indicar por 
“= a+px, (16.16) 


ou, ainda, por 
W=-)-BX+Bx = +B(x-2). (16.17) 
Exemplo 16.1 Voltemos ao Exemplo 15.1 e vamos ajustar o modelo (16.10), com: 
Y;: tempo de reação do i-ésimo indivíduo, 
x; idade do i-ésimo indivíduo, 
e; desvio, i= 1, 2, ..., 20. 
Da Tabela 16.1 obtemos as informações: 
n=20, >y,= 2.150, 5 x,= 600, 3 xy, = 65.400, 


—y = 107,50, —x = 30, 5x? = 19.000. 
Substituindo em (16.14) obtemos 
- 65.400- (20)(30)(107,50) 
19.000-(20)(30)” 
&=107,50-(0,90)(30) = 80,50, 


To 


o que nos dá o modelo ajustado 
Y;= 80,50 + 0,90x, i = 1, 2, ..., 20. (16.18) 


Com esse modelo podemos prever, por exemplo, o tempo médio de reação para pessoas de 20 

anos, que será indicado por y (20) e determinado por 
Y(Q0) = 80,50 + (0,90)(20) = 98,50. 

De modo análogo, os tempos médios para as idades 25, 30, 35 e 40 serão, respectivamente, 
estimados por: 103,00, 107,50, 112,00, e 116,50. Esses valores são muito próximos daqueles 
encontrados na Seção 15.3, e a vantagem desse modelo sobre aquele é a possibilidade de estimar 
o tempo de reação médio para um grupo de idades não observado. Suponhamos, por exemplo, 
que se deseja estimar o tempo médio para o grupo de pessoas com 33 anos; este será dado por 

Y(33) = 80,50 + (0,90)(33) = 110,20. 

Na Figura 16.1, aparecem representados os dados observados, bem como a reta ajustada. 
Podemos observar que o modelo parece ser adequado, não apresentando nenhum ponto com 
desvio exagerado. 


Problemas 


1. Usando os dados do Exemplo 15.1: 
(a) Encontre a reta de mínimos quadrados “z; = O + Bx;, em que z mede a acuidade visual e x, a idade. 
(b) Interprete o significado de O e B nesse problema. 
(c) Para cada indivíduo, encontre o desvio “e; = z; - x; existe algum com valor muito exagerado? 

2. A tabela abaixo indica o valor y do aluguel e a idade x de cinco casas. 


(a) Encontre a reta de MQ, supondo a relação E(y|x) =q+ Bx. 

(b) Faça o gráfico dos pontos e da reta ajustada. Você acha que o modelo adotado é razoável? 
(c) Qual o significado do coeficiente angular nesse caso? 

(d) E do coeficiente linear? 


3. Um laboratório está interessado em medir o efeito da temperatura sobre a potência de um antibiótico. Dez amostras de 50 
gramas cada foram guardadas a diferentes temperaturas, e após 15 dias mediu-se a potência. Os resultados estão no quadro 
abaixo. 

(a) Faça a representação gráfica dos dados. 

(b) Ajuste a reta de MQ, da potência como função da temperatura. 
(c) O que você acha desse modelo? 

(d) A que temperatura a potência média seria nula? 


30º 50º 


26 


70º 
ENA 


Temperatura 90º 


Potência |38 43/32 33/19 23/14 21 


4. Ainda usando os dados do exemplo numérico 15.1, investigue o ajuste da reta de MQ na variável tempo de reação como 
função da acuidade visual. 


16.3 Avaliação do Modelo 


Nesta seção e nas seguintes, estudaremos várias formas de avaliar se o modelo linear 
postulado é adequado ou não, dadas as suposições que fizemos sobre ele. 


16.3.1 Estimador de 02e 


Como no capítulo anterior, para julgar a vantagem da adoção de um modelo mais complexo 
(linear ou outro qualquer), vamos usar a estratégia de compará-lo com o modelo mais simples, 
que é aquele discutido na Seção 15.2, ou seja, 


y=n+e, (16.19) 


A vantagem será sempre medida por meio da diminuição dos erros de previsão, ou ainda, da 
variância residual S2,. Para o modelo ajustado (16.16), cada resíduo é dado por 


“e=y-y=y;-a-px, (16.20) 


Como vimos na Seção 16.1, vários gráficos envolvendo esses resíduos podem ser feitos para 
avaliar se eles são “bons representantes” dos verdadeiros e, desconhecidos, no sentido de que as 
suposições feitas sobre estes estão satisfeitas. Esses gráficos serão estudados na Seção 16.5. 

Quando estes resíduos forem pequenos, temos uma indicação de que o modelo está 
produzindo bons resultados. Para julgarmos se o resíduo é pequeno ou não, devemos compará-lo 
com os resíduos do modelo alternativo, dados por y, - y. Da dificuldade de compará-los 
individualmente, preferimos trabalhar com as respectivas somas de resíduos quadráticos, dadas 
por 


SQTot=5"(»-5) (16.21) 


= 


SQRes=3"8: = (3, -5,). (16.22) 


Exemplo 16.1 (continuação) Na quinta coluna da Tabela 16.1, aparecem os resíduos 
é =y;-Y;=);- (80,50 + 0,90x,) 
que elevados ao quadrado e somados produzirão 
SQRes = 563,00. 


Tabela 16.1 Resíduos para o modelo (16.18). 


Tempo de Reação | Sexo 


Variáveis Resíduos 


i 


Tempo de Reação Yi); 


vo aUrwNa 


ER eREsRESESrEgREERSSERE 


563 


31,28 
5,59 


11,18 


Sabemos que SQTot = 1.373,00, o que mostra uma sensível redução de 810 unidades. Mais 
ainda, a comparação da quinta coluna da Tabela 16.1 com a coluna e(3) da Tabela 15.4 mostra o 
melhor comportamento dos resíduos do modelo de regressão (16.18). 

No entanto, a comparação direta dessas somas de quadrados não nos parece justa, pois o 
modelo (16.18) tem mais parâmetros do que o modelo (16.19). Vejamos, então, como comparar 
as variâncias residuais. Para o modelo simples (16.19) o estimador não viesado de 0º, é 


º = 
s2 e s120 -J) = ed (16:23) 


Também vimos que para o modelo (16.2), com I níveis ou subpopulações, o estimado da 
variância residual era 


g2 = SQDen | tia (16.24) 


“n-T 
e 1 também denota o número de parâmetros desconhecidos do modelo (as médias p,). Portanto, 


de modo geral, perde-se um grau de liberdade para cada parâmetro envolvido no modelo e é 
natural definir o estimador de o?, num modelo de regressão como sendo 


»  SQRes 
s2=SÃes, (16.25) 


em que p é o número de parâmetros do modelo. No caso particular da regressão linear simples, p 
=2e 


e 


fe SSME. (16.26) 
n-2 
será um estimador não viesado de 02, isto é, E(S?,) = 02,. Veja o Problema 32. 


Exemplo 16.2 Continuando o exemplo anterior, obteremos 
S? = 1.373/19 = 72,26, S = 8,50 


S2, = 563/18 = 31,28, S, = 5,59, 


números que sugerem uma diminuição significativa na soma dos quadrados dos resíduos. 
Observe que, passando de um modelo com um parâmetro para outro com dois, há uma redução 
de 810 unidades na soma de quadrados residuais. Ou seja, perdendo um grau de liberdade, 
reduziu-se a soma dos resíduos quadráticos em 810 unidades, o que é mais uma evidência da 
vantagem de adoção do segundo modelo. 


16.3.2 Decomposição da Soma de Quadrados 


Ao passarmos do modelo simples para o modelo de regressão linear, vimos que a redução da 
soma de quadrados é dada por SQTot - SQRes. Esse lucro é devido à adoção do segundo modelo 
e será indicado por SQReg, significando a soma dos quadrados devida à regressão. Segue-se 
que 


SQReg = SQTot - SQRes, (16.27) 
ou seja, 
SQTot = SQReg + SQRes. (16.28) 
Observando a Figura 16.3, notamos que vale a seguinte relação: 
yry=0-Y)+0——)) = &+ 0; —). (16.29) 
Em palavras, o desvio de uma observação em relação à média pode ser decomposto como o 


desvio da observação em relação ao valor ajustado pela regressão, mais o desvio do valor 
ajustado em relação à média. 


Figura 16.3 Representação gráfica dos diversos desvios. 


va 


Elevando-se ao quadrado ambos os membros da igualdade (16.29), tomando-se a soma e 
observando-se que a soma do duplo produto se anula (veja o Problema 31), obtemos 


0; -3/=5(6,-5) a. (16.30) 


ou 
SQTot=5"(5, -5) +SQRes. (16.31) 
do que deduzimos que 
SQReg = 5", -7). (16.32) 
De (16.17) obtemos que 


Fi = Bl), 
portanto, podemos escrever 


SQReg =? > (x, =X). (16.33) 


Daqui se pode observar que, quanto maior o valor de p, maior será a redução da soma dos 
quadrados dos resíduos. 


16.3.3 Tabela de Análise de Variância 


Do mesmo modo como foi feito na Seção 15.2, podemos resumir as informações anteriores 
numa única tabela ANOVA, ilustrada na Tabela 16.2. 


Tabela 16.2 Tabela ANOVA para modelo de regressão. 


Regressão QMReg/S?, 


Resíduo 


Total 


Também podemos medir o lucro relativo que se ganha ao introduzir o modelo, usando a 
estatística 


“E SQReg 
R= Sora (16.34) 


definida anteriormente. A estatística F será discutida na Seção 16.4. 


Exemplo 16.3 Dos cálculos que nos levaram ao modelo (16.18), podemos construir a Tabela 16.3. 


Temos que 
810 


A 7; 
E =7373 7% 


Tabela 16.3 Tabela ANOVA para o modelo (16.18). 


FEV. l|el| so |QM | EF 


Regressão | 1 810 810 | 25,90 
Resíduo | 18 | 563 | 31,28 


Total | 19 | 1.373 | 72,26 


O modelo proposto diminui a variância residual em mais da metade e explica 59% da 
variabilidade total. Verificamos, então, que é vantajosa a adoção do modelo linear (16.18) para 
explicar o tempo médio de reação ao estímulo, em função da idade. 

A estratégia adotada para verificar se compensa ou não utilizar o modelo y = u + Bx + e é 
observar a redução no resíduo quando comparado com o modelo y = | + e. Se a redução for 
muito pequena, os dois modelos serão praticamente equivalentes, e isso ocorre quando a 
inclinação B for zero ou muito pequena, não compensando usar um modelo mais complexo. 
Estaremos, pois, interessados em testar a hipótese 


H,: B=0, (16.35) 


o que irá exigir que se coloque uma estrutura de probabilidades sobre os erros. Esse assunto será 
objeto da próxima seção. A Figura 16.4 ilustra as duas situações que podem ocorrer. Na Figura 
16.4 (a), temos o caso em que claramente a variável auxiliar ajuda a prever a variável resposta. 
Na situação da Figura 16.4 (b), teremos dúvidas se vale a pena ou não introduzir um modelo 
mais complexo, ganhando muito pouco em termos de explicação. 


Figura 16.4 Retas ajustadas a dois conjuntos de dados. (a) x explica y; (b) x não explica y. 


e 
x 


(b) 


Para a avaliação final do modelo devemos investigar com mais cuidado o comportamento dos 
resíduos, o que será feito na Seção 16.5. 


5. Usando os resultados do Problema 1, construa a tabela ANOVA para o modelo z = à + B x, encontrado naquele problema. 
(a) Qual a estimativa S?? E se 
(b) Você acha que a redução nos resíduos foi grande? 


(c) Qual o valor de R?? Interprete esse número. 
6. Um estudo sobre duração de certas operações está investigando o tempo requerido (em segundos) para acondicionar objetos e 


o volume (em dm?) que eles ocupam. Uma amostra foi observada e obtiveram-se os seguintes resultados: 


Tempo | 10,8 | 144 | 19,6 | 18,0 8,4 15;2 | 11,40 | 13;3 | 23,1 


Volume | 20,39 | 24,92 | 34,84 | 31,72 | 13,59 | 30,87 | 17,84 | 23,22 | 39,65 


(a) Faça o diagrama de dispersão dos dados. 

(b) Estime a reta de regressão do tempo de operação em função do volume. 

(c) Construa a tabela ANOVA para o modelo. 

(d) Qual o valor de S22 É pequeno quando comparado com sê 

(e) Você acha que conhecer o volume do pacote ajuda a prever o tempo de empacotamento? 
7. Construa a tabela ANOVA para o Problema 2 e interprete os resultados. 
8. Construa a tabela ANOVA com os dados do Problema 3. 


9. Idem para o Problema 4. 


16.4 Propriedades dos Estimadores 


Iremos agora estudar as propriedades amostrais dos estimadores a e p, e para isso é 
conveniente voltar ao modelo e às suposições adotadas para a variável aleatória Y sob 
investigação. Lembremos que a variável X é suposta controlada, fixa, e para cada valor x de X 
teremos associada uma distribuição de probabilidades para Y, como ilustra a Figura 16.5 (a), em 
que supomos que a dispersão é a mesma para cada nível da variável X. A Figura 16.5 (b) ilustra o 
caso que será considerado aqui, em que estas distribuições condicionais são normais, com a 
mesma variância. Note que E(Y|x) é linear, como estamos considerando neste capítulo. 

Formalmente, o modelo 

Y=E(Yx)+e=au+bBx+e,i=1,..,n 
deve satisfazer as seguintes suposições: 

(i) Para cada valor de x, o erro e, tem média zero e variância constante 02; 

(ii) Se i 2 j, Cov(e, e) = 0, isto é, para duas observações distintas, os erros são não 

correlacionados. 

Segue-se que 

E(Y|x) = « + Bx,e Var(Y |x;) = 02, 
e ainda que Y, e Y, são não correlacionados, para i 4 j. 


Figura 16.5 (a) médias alinhadas, distribuições com a mesma variância; (b) médias alinhadas, distribuições normais com a mesma 
variância. 


fot) 


fot) 


PE Eh) = a.+ Br 
3 


16.4.1 Média e Variância dos Estimadores 


Nesta seção, vamos obter a média e a variância dos estimadores « e p, dados em (16.14). 
Proposição 16.1 Para o estimador p temos 
E(p) = B, (16.36) 
[oz 


Var(B)= E (16.37) 


t=1 


1 


Prova. Inicialmente, vamos escrever 8 de um modo mais conveniente (veja o Problema 30): 


Dula-Bh sd (5-7) 4, 
> dx =) fal >=) E = ii 
em que estamos usando a notação Y (maiúscula) e x (minúscula) para diferenciar o fato de que a 
primeira está sendo considerada aleatória e a segunda, fixa; e 


Observe que estamos usando o fato de Se -*)=0 e que 


Dus = Ds Em = Dm (x —x) 
.f x,—X) 


ES (= gn é -z) 
Usando propriedades da esperança e variância de somas de v.a. (veja o Capítulo 8), podemos 
escrever 


E(B)= ES ut) => wE(K) 
a! a! 
= > w(a+ px, )= a> w; +B> ma =B, 
i=l il E! 
o que mostra que o estimador é não viesado. Para a variância, 
Var(B)= Var/ Sw) => w2Var(F,), 
te] t=l 


pois as observações são não correlacionadas, e, portanto, 


Var(B)= et at3) sê ;) Ai, lg 


e o resultado segue. 
Proposição 16.2 Para o estimador « temos: 
E(a) = q, (16.38) 
De, 
Var(á)= 0; ————. (16.39) 


LD E E x) 


Prova. Precisaremos dos seguintes resultados (Problema 33): 
ia p) = 0, (16.40) 


> '=5- ne. (16.41) 


Como 


temos que 


dado que x é supostamente fixa e não uma v.a. Também, 
us Ex a? 
Var(7)=-— > Var(e,)=—*. 
n Fer] n 


Temos, então, que 
E()=Ey-p-)=0u+B-x-B-x=a, 


Var(o) = Var(y - p —x) = Var(y) + Var(g —x) - 2Cov(y, p —) 
= Var(y) +-xºVar(p) - 2 —xCov(y, p) 
e usando os diversos resultados obtidos acima, obtemos (16.39). 


16.4.2 Distribuições Amostrais dos Estimadores dos Parâmetros 


Para completar o estudo das propriedades dos estimadores, vamos introduzir uma terceira 
suposição: 

(iii) Os erros e, são v.a. com distribuição normal, isto é, 

e, N(0; 02), (16.42) 
o que implica 
y;— N(a + Bx,; 02,). (16.43) 

Como p e a são combinações lineares de v.a. normais e independentes, temos o seguinte 

resultado: 


Proposição 16.3 Os estimadores «a e p têm ambos distribuição normal, com médias e variâncias dadas 
pelas Proposições 16.1 e 16.2, isto é, 


à a a; PB di (16.44) 
l n> (x,-X) ) 
E ( o? | 
B- | B; EE: 7) (16.45) 


Os resultados acima permitem concluir que 


BB (4-5) -n(01), (16.46) 


a=s ai - N(0,1). (16.47) 


16.4.3 Intervalos de Confiança para « e 


Substituindo o, por seu estimador S, em (16.46) e (16.47), sabemos que as estatísticas 
resultantes terão distribuição t de Student, com (n - 2) graus de liberdade, o que permitirá 
construir intervalos de confiança para os parâmetros. 


Proposição 16.4 As estatísticas 


do)- Etsy (16.48) 


têm distribuição t de Student com (n - 2) graus de liberdade. 

Esse resultado, combinado com os procedimentos de construção de intervalos de confiança já 
estudados, nos leva aos seguintes intervalos para aq e B, com y denotando o coeficiente de 
confiança e t (n - 2) denotando o valor obtido da Tabela V, com (n - 2) graus de liberdade: 


Sa 
IKC(a;y)=á +" (n-2)S, (= 16.50 
( ) E sap (16.50) 
IC(B;y)=B+r,(n-2)5, |=—.. (16. 
(B;y)=B a (16.51) 


Exemplo 16.4 Da tabela ANOVA do Exemplo 16.3 podemos retirar as informações necessárias para 
construir intervalos de confiança para a e B. Temos que 3'x?, = 19.000, X (x, - x )? = 1.000, e x = 
30. 

Temos, também, S2, = 31,28 e, portanto, S, = 5,59. Se y = 0,95, obtemos to,95(18) = 2,101.0s 
intervalos são dados por: 


IC(0;0,95) = 80,50 + (2,101)(5,59) EE) = 80,50+11,45, 
IC(B;0,95) = 0,90 (2,101)(5,59),1/1.000 


= 0,90+ 0,30. 
Ou seja, 
IC(a; 0,95) = [69,05; 91,95], 
ICIB; 0,95] = [0,60; 1,20]. 

Este último resultado é mais uma evidência de que B * 0, o que reforça conclusões anteriores. 
Os intervalos de confiança (16.50) e (16.51) podem ser utilizados para testar hipóteses do tipo 

Ho à = O, 

Ho: B = Bo. 
Em particular, temos o resultado: 


Proposição 16.5 A estatística para testar H,: a = O é 


EE (16.52) 


(a)=S 
e a estatística para testar H;: B = O é 
am - 
dB)=5 (=) , (16.53) 


cada uma tendo distribuição t de Student com (n - 2) graus de liberdade. 
Observe que 


af P2S (x, -z/ 
[(6)] "o o! 
e usando o resultado (16.33) podemos escrever 


['(6)] =“. (16.54) 


que é a estatística F que aparece na tabela ANOVA. Assim, para testar a hipótese H,: B = 0, 
pode-se usar a estatística (16.54), que segue uma distribuição F(1, n - 2). 


Exemplo 16.5 Para testar separadamente as hipóteses acima, os valores das estatísticas 
correspondentes serão: 
(20)(1.000) 
19.000 
“(8 ) = (0,90/5,59) 1.000 = 5,09, 
os quais devem ser comparados com 2,101, que é o valor crítico de t(18), no nível de 
significância 5%. Vemos que em ambos os casos rejeitamos as hipóteses de que os parâmetros 
sejam iguais a zero. Comparando o resultado de t(p) com o valor F da tabela ANOVA, 
constatamos que t*(p) = 25,90 = F, de acordo com o apresentado acima. Algumas vezes, para 
indicar a significância das estatísticas, a reta ajustada é escrita do seguinte modo: 
P=80,50 + 0,90x, 
(14,77) (5,09) 
em que entre parênteses aparece o valor de t, para indicar com que intensidade o parâmetro pode 
ser considerado distinto de zero. 


t(6)=(80,5/5,59) =14,77, 


16.4.4 Intervalo de Confiança para |(z) e Intervalo de Predição 


O modelo linear (16.6), estudado até agora, será utilizado frequentemente para fazer previsões 
da variável resposta (y) para algum nível da variável de controle (x). Usando o enunciado do 
Exemplo 16.1, poderíamos estar interessados em saber qual o tempo de reação aos 28 anos. É 
importante estabelecer se queremos estimar o tempo médio para o grupo etário de 28 anos ou o 
tempo de reação provável para uma pessoa de 28 anos. Veremos que a estimação pontual é a 
mesma nos dois casos, porém os intervalos de “confiança” serão distintos. Para entender bem as 
diferenças sugerimos recordar as soluções aos Exercícios 23, 24 e 25 do Capítulo 15. 

Do modelo (16.3) e do exposto até agora, temos o seguinte resultado. 


Proposição 16.6 A distribuição amostral do estimador (16.15) é dada por 
u(x)= 5, =6.+ fx - N(a +Bx, Var($,)) (16.55) 
em que 


Var(u(x, = Var(f,)=o2 l a (x, + X 


P | 
nº +37 | (16.56) 


Prova. Das proposições 16.1 e 16.2 vem: 
E(u(x,))= E(à)+ E(Ê)x, =a+Bx =u(x,) 


o que demonstra a primeira parte da proposição. De (16.17) temos 
Y, =) + Blx,- 2), 


portanto 
Var(9) = Var (9) + (x,- x) Var(g) + 2(x, - x) Cov(-y 8), 
mas de (16.40), Cov( —y, p) = 0, e de (16.37) vem 


É. (x, +) 


is NR 


o que conclui a prova. 
Com a proposição acima e substituindo 02, por seu estimador S2, é fácil verificar que o 
Intervalo de Confiança para (x) será dado por: 


C(u(x);y)=9, +, (n-2)5, 


Vejamos, agora, como construir um intervalo de predição para uma futura observação. 
Imitando a proposta do Problema 15.24, uma futura observação para um dado nível x, é dada por 
YO) = nl +, 

e o estimador será 
K=Ypt =p 
em que substituímos o valor desconhecido £, pelo seu valor esperado que é zero. 
Da expressão anterior calculamos: 


E 


a NA 


Var(f,)= Var(+, )+ Var(s,)=02 E Si] +02, 


ou seja, 


o Oo DM PS 
va) coifteto sh] (16.58) 


Substituindo o?, pelo seu estimador S2,, teremos um estimador da variância, e analogamente o 
intervalo de predição abaixo: 


EI. 
P(Kiy)=5, +68. (i++ sc (16.59) 
Exemplo 16.6 Qual o tempo de reação aos 28 anos? 
A estimativa pontual é dada por: 
y(28) = 80,5 + 0,9(28) = 105,7. 
Considerando como resposta adequada o tempo de reação médio do grupo de 28 anos, 
podemos escrever o Intervalo de Confiança para a média, ou seja: 


IC(u(28);0,95) = 105,7s(2,1014539) A + 2830 E 


=105,7+2,7 = 103,0; 108,4[. 


Se quiséssemos saber dentro de que intervalo 95% das futuras observações iriam estar, 
construiríamos o Intervalo de Predição: 


| 1 (28-30) 
IP(Y,:0,95)=105,7+(2,101)(5,59)l+ 55 + o = 


=105,7+12,1=]93,6; 117,8[. 


10. Usando a tabela ANOVA, construída no Problema 5: 
(a) Construa o IC(B; 95%). 
(b) Construa o IC(Ot; 90%). 
(c) Use a estatística F para testar a hipótese Ho; B =0. 


(d) Construa o IC para a acuidade visual média do grupo etário de 28 anos. 

(e) E qual seria o Intervalo de Predição da acuidade visual das pessoas de 28 anos? 
11. Com as informações do Exemplo 15.1, e a ANOVA construída no Problema 9, você diria que a acuidade visual ajuda a 
prever o tempo de reação dos indivíduos? Que estatística você usou para justificar seu argumento e por quê? 
12. Investigando a relação entre a quantidade de fertilizante usado (x) e a produção de soja (y) numa estação experimental com 20 
canteiros, obteve-se a equação de MQ: 


Y = 15,00 + 2,83X. 
(3,22) (1,65) 
Com esses resultados você diria que a quantidade de fertilizante influi na produção? Por quê? 


16.5 Análise de Resíduos 


Para verificar se um modelo é adequado, temos que investigar se as suposições feitas para o 
desenvolvimento do modelo estão satisfeitas. Para tanto, estudamos o comportamento do modelo 
usando o conjunto de dados observados, notadamente as discrepâncias entre os valores 
observados e os valores ajustados pelo modelo, ou seja, fazemos uma análise dos resíduos. 

O i-ésimo resíduo é dado por 


8,=y;-Poi=1,2,..,n. (16.60) 


Lembremos que já utilizamos estes resíduos para obter medidas da qualidade dos estimadores 
dos parâmetros do modelo. Agora, iremos estudar o comportamento individual e conjunto destes 
resíduos, comparando com as suposições feitas sobre os verdadeiros erros e, Existem várias 


técnicas formais para conduzir essa análise, mas aqui iremos ressaltar basicamente métodos 
gráficos. Para mais detalhes, ver Draper e Smith (1998). 

Uma representação gráfica bastante útil é obtida plotando-se pares (x, é), i = 1, ..., n. Outras 
vezes, é de maior utilidade fazer a representação gráfica dos chamados resíduos padronizados, 


g=AÇÃ 5 (16.61) 


plotando-se os pares (x, z;). Observe que a forma dos dois gráficos será semelhante, havendo 
apenas uma mudança de escala das ordenadas nos dois casos. Por isso, iremos usar a primeira 
representação, indicando no gráfico a posição do valor S,. 

Outro resíduo usado é o chamado resíduo estudentizado, definido por 


o pê 
h= Sl-vo. (16.62) 
em que v; =1/n+(x,-x)'/> (x,-x)'. O denominador de (16.62) é o desvio padrão de ê,. Não iremos 
explorar aqui a análise feita com esse tipo de resíduo. 
Exemplo 16.7 Voltemos ao Exemplo 15.1. Os resíduos do modelo (16.18) estão reproduzidos na 
Tabela 16.4, dos quais foram obtidos os demais. Os dois primeiros resíduos estão representados 


na Figura 16.6. Note que os dois gráficos são parecidos e levarão ao mesmo tipo de diagnóstico. 
Comentários adicionais sobre esse exemplo serão feitos abaixo. 


Tabela 16.4 Resíduos para o modelo (16.18). 


; Lad Idade ê, Z r 


(a) (b) 


Obtido o gráfico dos resíduos, precisamos saber como identificar possíveis inadequações. 
Apresentamos na Figura 16.7 alguns tipos usuais de gráficos de resíduos. A Figura 16.7 (a) é a 
situação ideal para os resíduos, distribuídos aleatoriamente em torno do zero, sem nenhuma 
observação muito discrepante. 


Figura 16.7 Gráficos de resíduos. (a) situação ideal; (b), (c) modelo não linear; (d) elemento atípico; (e), (£), (g) 
heterocedasticidade; (h) não normalidade. 


Meo o a Mal 


(a) (db) (c) (d) 


Nas situações (b) e (c), temos possíveis inadequações do modelo adotado, e as curvaturas 
sugerem que devemos procurar outras funções matemáticas que expliquem melhor o fenômeno. 

A Figura 16.7 (d) mostra a existência de um elemento discrepante, e deve ser investigada a 
razão desse desvio tão marcante. Pode ser um erro de medida, ou a discrepância pode ser real. 


Em situações como essa, em que há observações muito diferentes das demais, métodos 
chamados robustos têm de ser utilizados. 

Os casos (e), (f) e (g) indicam claramente que a suposição de homoscedasticidade (mesma 
variância) não está satisfeita. Em (h), parece haver maior incidência de observações nos 
extremos, mostrando que a suposição de normalidade não está satisfeita. 

Analisados os resíduos e diagnosticada uma possível transgressão das suposições, devemos 
propor alterações que tornem o modelo mais adequado aos dados e às suposições feitas. 

A verificação da hipótese de normalidade pode ser realizada fazendo-se um histograma dos 

resíduos ou um gráfico de q x q, como explicado no Capítulo 3. 
Exemplo 16.7 (continuação) A análise dos resíduos do modelo (16.18) mostra que esses não violam 
as suposições de média zero e variância comum. A Figura 16.8 mostra o histograma dos 
resíduos, e a Figura 16.9 mostra um gráfico q x q. Esse gráfico, feito com o SPlus, coloca nos 
eixos das ordenadas os valores crescentes dos é, e no eixo das abscissas os quantis de uma 
normal padrão. Se os valores fossem de uma normal, eles deveriam se dispor ao longo de uma 
reta. Notamos que tanto o histograma quanto o gráfico de quantis mostram que os resíduos não 
são normalmente distribuídos. 


Figura 16.8 Histograma dos resíduos do modelo (16.18). 
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Figura 16.9 Gráfico q X q (normalidade) para os resíduos do modelo (16.18). 
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Quando a suposição de variância comum não estiver satisfeita, usualmente faz-se uma 
transformação da variável resposta y, ou da preditora x, ou de ambas. Para detalhes, ver Bussab 
(1986) e a Seção 16.6. 


Exemplo 16.8 Num processo industrial, além de outras variáveis, foram medidas: X = temperatura 
média (ºF) e Y = quantidade de vapor. Os dados estão na Tabela 16.5 (Draper e Smith, 1998, 
Appendix A). 


Tabela 16.5 Temperatura e quantidade de vapor de um processo industrial. 


Nº 


voor wNH 


Yi 
10,98 
11,13 
12,51 

8,40 
9,27 
8,73 
6,36 
8,50 
7,82 
9,14 
8,24 
12,19 
11,88 
9,57 
10,94 
9,58 
10,09 
811 
6,83 
8,88 
7,68 
8,47 
8,86 
10,36 
11,08 


Fonte: Draper e Smith (1998). 


O gráfico de dispersão e a reta de MQ estão na Figura 16.10 (a). A reta estimada de MQ é 


dada por 


P,= 9,424 - 0,0798(x, - 52,6), (16.63) 


ou ainda 


Y; = 13,623 - 0,0798x, (16.64) 


de modo que « = 13,623 e p = -0,0798. Os resíduos e” ,= y, - Y, estão na quarta coluna da Tabela 
16.5 e seu gráfico contra x, na Figura 16.10 (b). O gráfico q x q para verificar a suposição de 
normalidade está na Figura 16.10 (c). Observamos que há vários pontos afastados da reta. 


Figura 16.10 (a) gráfico de dispersão com reta ajustada; (b) resíduos vs temperatura; (c) gráfico q x q (normalidade). 


Problemas 


13. Com o modelo linear já obtido para a acuidade visual como função da idade, construa os tipos de resíduos apresentados no 
Exemplo 16.6. Represente-os graficamente. Você observa alguma transgressão das suposições básicas? 
14. Para cada gráfico de resíduo abaixo, indique qual a possível transgressão observada. 


15. Abaixo estão os valores da variável preditora (x), os resíduos observados depois do ajuste do modelo e a ordem em que os 


dados foram obtidos. 
Preditor | 11 |20/14/22/12/25]15 Preditor | 14 |19|21/18/22/16|21 
Resíduo |1]|2]313]/1|510 Resíduo | 0|3|2]2]-5/0]1 
Ordem |9|6/13/1/7/14|8 Ordem |3 /12/4/11/]2/10]5 


(a) Verifique se existe alguma possível transgressão das suposições, analisando o gráfico (x;, É;). 


(b) Faça o gráfico do resíduo contra a ordem do experimento. Você observa alguma inconveniência? 


16.6 Alguns Modelos Especiais 


Nesta seção, introduziremos alguns modelos particulares simples e que são de interesse 
prático. Iniciamos com o modelo que teoricamente passa pela origem. Depois, consideramos 
modelos não lineares, mas que podem ser linearizados por meio de alguma transformação. 


16.6.1 Reta Passando pela Origem 


Em algumas situações temos razões teóricas (ou ditadas pelas peculiaridades do problema a 
analisar) para supor que o modelo deva ser do tipo 


y;=Bx,te,i=1,...,n. (16.65) 
Com as mesmas suposições anteriores e observada uma amostra (x, y;), | = 1, ..., n, é fácil ver 
que o EMQ de B é 
Sax, 
B=—. (16.66) 
Xi 


Deixamos a cargo do leitor verificar como ficam os resultados obtidos anteriormente para o 
modelo completo nesse caso particular. Por exemplo, 


E(B)=B, 


Exemplo 16.9 A mensuração exata (Y) de uma substância do sangue, por meio de uma análise 
química, é muito cara. Um novo método mais barato resulta na medida X, que supostamente 
pode ser usada para prever o valor de Y. Nove amostras de sangue foram obtidas e avaliadas 
pelos dois métodos, obtendo-se as medidas abaixo. 


X | 119 | 155 | 174 | 190 | 196 | 233 | 272 | 253 | 276 


Y | 112 | 152. | 122 | 183 | 192 | 228 | 263 | 239 | 263 


Algumas estatísticas obtidas são: 
n=9, >,4=1868, >,» =1.804, 
> 434 =396.933, 5 22=411.436, 5 y2=383.028. 
Vamos ajustar o modelo (16.65) a esses dados. Obtemos 
pg = 396.933/411.436 = 0,9648, 
resultando no modelo ajustado 
y,= 0,9648x, i = 1, 2,...,9. 


É fácil ver que S2, = 5,9136 e S, = 2,4318. Para testar a hipótese H,: B = 0, usamos a estatística 


d6)-"SÊ VS 
que resulta ser igual a r(f)=(0,9648/2,4318) 411.436 =254,48, o que claramente leva à rejeição de H,. 


Um intervalo de confiança para B, com coeficiente de confiança 95% é 
2,4318 


n411.436 


0,9648+ (2,306) = (0,9648 + 0,0087, 


ou seja, 
IC(B; 0,95) = [0,9561; 0,9735]. 
Os dados e a reta ajustada estão na Figura 16.11. 


Figura 16.11 Dados e reta ajustada para o Exemplo 16.8. 


16.6.2 Modelos Não Lineares 


Quando usamos modelos de regressão, ou qualquer outro tipo de modelo, a situação ideal é 
aquela em que o pesquisador, por razões teóricas inerentes ao problema real sob estudo, pode 
sugerir a forma funcional da relação entre duas ou mais variáveis. Na prática, isso nem sempre 
acontece. Muitas vezes, o pesquisador está interessado em usar técnicas de regressão para 
explorar modelos convenientes sugeridos pelos dados observados. 

Como vimos, o primeiro passo para investigar o tipo de modelo a ser adotado é a 
representação gráfica dos dados, a qual pode sugerir a forma da curva relacionando as variáveis, 
além de fornecer outras informações (veja o final da Seção 16.1). Por exemplo, com os dados da 
Tabela 16.6 obtemos o diagrama de dispersão da Figura 16.12. Notamos claramente a 
inadequação da reta como modelo, sendo que provavelmente uma relação exponencial do tipo 


flx) = q eP*(16.67) 
seja mais adequada. Um modelo que pode, então, ser sugerido, é 


y=ueri+e,i=1,..,n. (16.68) 


Tabela 16.6 Taxa de Inflação no Brasil de 1961 a 1979. 


Y*= log Y 
1961 | -9 9 22 
1963 | 7 24 32 
1965 | -5 72 4,3 
1967 | -3 128 4,8 
1969 | 1 192 5,2 
1971] 1 277 5,6 
1973 | 3 373 5,9 
1975 | 5 613 6,4 
1977 | 7 1.236 Zi 
1979 | 9 2.639 7,9 


Suponha que queiramos estimar os parâmetros a e B pelo método de mínimos quadrados. 
Devemos minimizar 
S(a,B)=)82=>(y-ass/. (16.69) 


ia] iz] 


Derivando S em relação a a e B e igualando a zero, obtemos as duas equações 
45 es = By, 
Eu oe (16.70) 
à? % xebs = a> x yr. 
dad te 


A solução desse sistema de equações não lineares exige o uso de procedimentos de otimização 
não lineares, como Newton-Raphson, Gauss-Newton, “scoring” e outros. Ou seja, os pontos de 
máximo da função S são obtidos numericamente, dada a impossibilidade de termos soluções 
analíticas para as Equações (16.70). Mas devemos dizer que essa é a regra, mais do que a 
exceção, em problemas encontrados na prática. Portanto, a utilização desses procedimentos de 
otimização é um requisito importante para estudantes de áreas como estatística, economia, 
engenharia etc. 

Neste livro, vamos nos limitar a tratar de alguns casos em que as transformações das variáveis 
sob estudo permitirão o uso de um modelo linear simples. 

Suponha que a função (16.67) seja apropriada para os dados da Tabela 16.6. Considere o 
modelo 


y=oeMie,i=1,...,n. (16.71) 


Observe que nesse modelo os erros £, entram de forma multiplicativa e não aditiva, como no 
caso do modelo (16.6). Considerando, agora, o logaritmo (na base e) de ambos os lados de 
(16.71) e chamando 

Y;= logy, 0” = log a, €”,= log e, (16.72) 
podemos escrever o modelo na forma 
yo +Pr+re,i=],.sn (16.73) 


Note que esse modelo é linear em o” e f, e temos que supor que os erros £, sejam positivos; do 
contrário, não podemos tomar logaritmos deles. Por outro lado, os erros £”, podem ser negativos, 


positivos ou nulos. Portanto, para o modelo linear (16.73) podemos fazer as suposições usuais 
das seções anteriores. 


Exemplo 16.10 Utilizando os dados da Tabela 16.6, devemos, inicialmente, calcular os logaritmos 
naturais da variável Y. Note que nesse exemplo a variável explicativa é o tempo, 
convenientemente codificado. Na Figura 16.13, temos o diagrama de dispersão dos dados 
transformados e da reta ajustada, a saber 


Y',=5,27+ 0,28, t=-9,...,9. (16.74) 


A análise de tal modelo pode ser conduzida como antes. Veja o Problema 35. 
Observe que o modelo original ajustado é 


“y,— 194,42 - e j=1,..., 10, (16.75) 


pois a = e>?”. Essa curva está representada na Figura 16.12. Os resíduos do modelo (16.74), 
transformado, e do modelo (16.75), original, são dados na Tabela 16.7 e nas Figuras 16.14 e 
16.15, respectivamente. Note que em ambos os casos os resíduos não parecem ser aleatórios, 
havendo curvaturas, sugerindo a possibilidade de um modelo com termos quadráticos ou 
cúbicos, por exemplo. 


Figura 16.13 Diagrama de dispersão para o logaritmo da inflação com reta ajustada. 


Log inflação 


Tabela 16.7 Resíduos para os modelos linear e exponencial. 


Resíduos 
Exponencial 
—6,643 
-3,386 
24,057 
44,067 
45,061 
19,757 
—77,348 
—175,412 
-145,251 
222,632 


Os histogramas e gráficos q x q para normalidade dos resíduos estão nas Figuras 16.16 e 
16.17. Notamos que o histograma é assimétrico, mostrando claramente o valor correspondente a t 
= 9. Como há poucos pontos, a análise de resíduos fica prejudicada; o gráfico q x q mostra os 
pontos não muito próximos de retas. 


Figura 16.16 Histogramas: (a) resíduos reta ajustada ao log (inflação); (b) resíduos modelo exponencial. 
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Figura 16.17 Gráficos q X q dos resíduos: (a) reta; (b) exponencial. 
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16.7 Regressão Resistente 


Nesta seção, vamos considerar apenas o caso de regressão linear simples. Ou seja, temos os 
valores observados (x, Y;), i = 1, ..., ne queremos ajustar o modelo (16.6). 

Notamos que os estimadores « e p em (16.14) são baseados em x, —y e desvios em relação a 
essas médias. 

A regressão resistente baseia-se em medianas, em vez de médias. Inicialmente, dividimos o 
conjunto dos n pontos em três grupos, de tamanhos aproximadamente iguais, baseados 
principalmente na ordenação da variável x e no gráfico de dispersão. Chamemos esses grupos de 
E (de esquerda), C (de centro) e D (de direita). Se n = 3k, cada grupo terá k pontos. Se n = 3k + 1, 
colocamos k pontos nos grupos E e D e k +1 pontos no grupo C. Finalmente, se n = 3k + 2, 
colocamos k + 1 pontos nos grupos E e D e k pontos no grupo C. 

Para cada grupo obtemos um ponto resumo, formado pela mediana dos x, e a mediana dos y, 
naquele grupo. Denominemos esses pontos por 

Xe Ye) Ko Yo) Xp Yp)- 
Na Figura 16.18, temos um exemplo com três grupos com k = 3 em cada grupo. 


Figura 16.18 Reta resistente com três grupos. 


Os estimadores de B e a são dados, respectivamente, por 


h=I2=E, (16.76) 


ur alOs —bXe )+(%e —OoXe )H(Yn — Oto 1 (16.77) 


A reta resistente ajustada é 
= + bp ds 1, os mn (16,78) 
Os modelos robustos necessitam, muitas vezes, recorrer a processos interativos para obter 
estimadores mais eficientes. Isso deve ser feito quando os resíduos não forem bem comportados. 


Não abordaremos esse tópico neste livro. Veja Hoaglin et al. (1983) para mais informação. 


Exemplo 16.11 Voltemos aos dados do Exemplo 16.1. Como n= 20 = 3 x 6 + 2, os grupos E, Ce D 


serão formados com 7, 6 e 7 pontos, respectivamente. Observando a Figura 16.1, consideramos 
os grupos como seguem: 


Grupo E Grupo C 


14 
Idade |20 /20 | 20 | 20 |25] 25 | 25 


Y |92/96]100| 106 |98| 101 | 104 


35 
105 


i 16: | 13.) 15 | 18 | 17 | 20 | 19 
Idade | 35 | 35 | 35 | 40 | 40 | 40 | 40 
Y 108 | 112.) 118) 112 | 113) 117 | 127 


Os pontos resumidores são: 
(Xe YE) = (20, 100), 
(Xe Yo) = (30, 107,5), 


(Xp, Yp) = (40, 113), 
logo, as estimativas dos coeficientes serão 


a = a [(100-0,65(20)) +(107,5- 0,65(30)) + (113 — 0,65(40))] = 87,3 
de modo que a reta resistente ajustada será 
7, =87,3+0,65x,, 
que está representada na Figura 16.19, justamente com a reta de MQ, dada em (16.18). 


Figura 16.19 Reta de MQ (—) e reta resistente (— — —) para o Exemplo 16.11. 
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Na próxima seção, daremos um exemplo em que as duas retas, a de MQ e a resistente, são 
bastante diferentes. 


16.8 Exemplos Computacionais 
Nesta seção, vamos considerar dois exemplos: um sobre a aplicação a dados reais do mercado 
de ações e outro aplicando regressão resistente a um conjunto de dados com um outlier. 


Exemplo 16.12 Retomemos o Exemplo 4.13, no qual consideramos as variáveis Y = preço de ação 
da Telebrás e X = índice da Bolsa de Valores de São Paulo, cada uma com n = 39 observações. O 


gráfico de dispersão das duas variáveis está na Figura 16.20, juntamente com a reta de mínimos 
quadrados. O modelo ajustado é 


Y;=-5,57 + 0,93x, 
e no Quadro 16.1 temos a saída do programa Minitab. Nesta, encontramos: 

(a) Estimativas dos coeficientes q e B, juntamente com as estimativas dos desvios padrões 
respectivos (1,085 e 0,0297). 

(b) Valores da estatística t, para testar as hipóteses nulas de que os coeficientes são nulos 
(denotados por T), juntamente com o valor-p (P = 0,000), mostrando que devemos rejeitar 
essas hipóteses nulas. 

(c) Uma tabela de análise de variância, com o valor F = 969,44, com 1 e 37 gl.,e o valor-p (P 
= 0,000). 

(d) O valor de Rº? = 96,3%, que nos diz que o modelo ajustado explica a maior parte da 
variabilidade dos dados. 


Figura 16.20 Gráfico de dispersão das variáveis X e Y, para o Exemplo 16.12 e reta ajustada. 
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Quadro 16.1 Análise do Exemplo 16.12. Minitab. 


Regression Analysis 

The regression equation is 

Tel=-— 5.57 + 0.925 Ibv 

Predictor Coef StDev T P 

Constant 5.570 1.085 —5.13 0.000 

Ibv 0.92491 0.02971 31.14 0.000 

S = 0.7614 R — Sq = 96.3% R — Sq (adj) = 96.2% 
Analysis of Variance 

Source DF SS MS F P 

Regression 1 561.99 561.99 969.44 0.000 
Residual Error 37 21.45 0.58 

Total 38 583.44 


Na Figura 16.21, temos gráficos que nos auxiliam a fazer um diagnóstico do modelo ajustado. 
Na Figura 16.21(a), temos o gráfico q x q dos quantis dos resíduos contra os quantis da normal 
padrão, para avaliar a normalidade dos resíduos. Na Figura 16.21(b), temos o gráfico dos 
resíduos contra a ordem das observações e, na Figura 16.21(d), o gráfico dos resíduos contra os 
valores ajustados. Finalmente, na Figura 16.21(c), temos o histograma dos resíduos. O que você 
pode dizer desses gráficos? 


Figura 16.21 Gráficos após o ajuste do modelo: análise de resíduos, Exemplo 16.11. Minitab. 
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Exemplo 16.13 Considere os dados da Tabela 16.8, provenientes da mensuração da velocidade do 
vento no aeroporto de Philadelphia (EUA), sempre a uma hora da manhã, para os primeiros 15 
dias de dezembro de 1974 (Graedel e Kleiner, 1985). 


Tabela 16.8 Velocidade do vento no aeroporto de Philadelphia. 


te): t v, 
1/222 9|204 
2/1611 10|20,4 
3/130 11|204 
4|278 12/111 
5/222 13]130 
6/74 14| 74 
7|74 15|148 
8| 7,4 


Observamos no diagrama de dispersão da Figura 16.22 o valor atípico 61,1 destacado dos 
demais pontos. A reta de MQ ajustada aos dados é 


“v, = 30,034 - 1,454t, t= 1, 2,..., 15, (16.79) 


e é “puxada” por esse ponto. Essa reta está representada por uma linha cheia na figura. 
Para ajustar a reta resistente, consideramos três conjuntos de cinco pontos. E fácil ver que 
obtemos 


“v,= 21,56-0,92t, t=1,2,..., 15 (16.80) 
também representada por uma linha tracejada na figura. 


Figura 16.22 Reta de MQ (——) e resistente (— — — —) para os dados de velocidade do vento. 


16.9 Problemas Suplementares 


16. Com o modelo z = à + Bx para a acuidade visual, desenvolvido nos problemas anteriores: 
(a) construa o IC de 95% para a acuidade visual média dos indivíduos com 18 anos de idade; 
(b) construa o IC de 95% para a acuidade visual esperada para indivíduos com 30 anos de idade; e 
(c) construa o IC com 95% de confiança para a acuidade visual média dos indivíduos com 80 anos. Comente o resultado. 
17. No Problema 6, qual o tempo médio esperado para empacotar um volume com 30 dm3? 
18. Os dados abaixo referem-se a meses de experiência de dez digitadores e o número de erros cometidos na digitação de 
determinado texto. 


Mesesx/1/2/3/]4/5/6/7/8/9]10 


Errosy |30 |28]24/20/18/14/13/10/7|6 


Dados: x; = 60, Lx2; = 460, Ly; = 170, Lxy; = 768. 
(a) Represente graficamente esse conjunto de dados. 
(b) Assumindo que um modelo de regressão linear é adequado, determine os coeficientes da equação pelo método dos mínimos 
quadrados. 
(c) Represente a reta de regressão no gráfico feito anteriormente. 
(d) Qual a posição do ponto (x, —y) em relação à reta de regressão? 
(e) Qual o número esperado de erros para um digitador com 5 meses de experiência? 
19. Os dados abaixo correspondem às variáveis renda familiar e gasto com alimentação numa amostra de dez famílias, 
representadas em salários mínimos. 


Renda familiar (x) | Gasto com alimentação (y) 


3 L5 

5 2,0 
10 6,0 
20 10,0 
30 15,0 
50 20,0 
70 25,0 
100 40,0 
150 60,0 
200 80,0 


Obtenha a equação de regressão ajustada, ) = à + Px. 
(a) Qual a previsão do gasto com alimentação para uma família com renda de 170 reais? 
(b) Qual a previsão do gasto para famílias com excepcional renda, por exemplo 1.000 reais? Você acha esse valor razoável? 
Por quê? 
(c) Se você respondeu que o valor obtido em (b) não é razoável, encontre uma explicação para o ocorrido. (Sugestão: interprete 
a natureza das variáveis X e Ye o comportamento de Y para grandes valores de X.) 
20. A análise do lucro anual de uma ação, como função linear da sua cotação média anual, forneceu os resultados abaixo com 
alguns campos em branco. Preencha as lacunas e interprete os resultados. 


ANOVA Modelo 
valor-p | LI (95%) | LS (95%) 


Fonte gl. | SQ |QM | F Descrição | Coef. | EP 


- 


Regressão Resíduo 1209 Intercepto | 49,00 | 22,00 0,055 -1,34 
Total 11 | 1766 Cotação 0,30 | 0,07 0,003 0,45 


21. Um jornal quer verificar a eficácia de seus anúncios na venda de carros usados. A tabela abaixo mostra o número de anúncios 
publicados e o correspondente número de carros vendidos por seis companhias que usaram apenas esse jornal como veículo de 
propaganda. 


Companhia A B:. | "6. |'D' | EG 


Anúncios 74 | 45 |48]36|27|16 
Carros vendidos | 139 | 108 | 98 | 76 | 62 | 57 


Ajustando-se a reta de regressão, obteve-se y = 1,516x + 27,844 e F = 70,17. Como você argumentaria com a companhia G para 
que ela aumentasse o número de anúncios, aumentando a venda de carros? 

22. O custo de manutenção de tratores parece aumentar com a idade do trator. Os seguintes dados foram obtidos (X representa 
idade em anos e Y o custo por seis meses): 


(a) Ajuste o modelo y = By + Bjx e teste a hipótese de interesse para o nível O = 0,10. 


(b) Devemos procurar um modelo mais adequado? 
(c) Determine uma “previsão” para o custo de manutenção para tratores com 5 anos de idade e obtenha um intervalo de 


confiança com Y = 0,90. 
(d) Teste as hipóteses Ho : Bo = 300, H, : Bo > 300, para o nível O = 0,05. 


x| y 
0,5 | 163 
0,5 | 182 
1,0 | 978 
1,0 | 466 
1,0 | 549 
4,0 | 495 
40 | 723 
4,0 | 681 
45 | 619 
4,5 | 1.049 
4,5 | 1.033 
5,0 | 890 
5,0 | 1.522 
5,0 | 1.194 
5,5 | 987 
6,0 | 764 
6,0 | 1.373 


23. Os dados abaixo referem-se a outro experimento de Galton (veja CM-1), dentro da mesma investigação, procurando estudar a 
relação entre o diâmetro, em centésimos de polegada, de ervilhas-pais (x) e ervilhas-filhas (y). Analise a reta de regressão para os 
dados e interprete os coeficientes. 


Diâmetros em 0,01 de polegadas de sementes de ervilhas 


Pais (x) | 15,0 | 16,0 | 17,0 | 18,0 | 19,0 | 20,0 | 21,0 


Filhos (y) | 15,4 | 15,7 | 16,0 | 16,3 | 16,6 | 17,0 | 17,3 


24. Um pesquisador deseja verificar se um instrumento para medir concentração de ácido lático no sangue está bem calibrado. 
Para isso ele tomou 20 amostras de concentrações conhecidas e determinou a respectiva concentração por meio do instrumento. 
Como uma análise de regressão poderia auxiliar o pesquisador? Modele o problema acima, especificando as variáveis 
independente e dependente e as hipóteses de interesse. 


25. Os dados abaixo correspondem a duas variáveis X e Y, em que: 
X = concentração conhecida de ácido lático e 


Y = concentração de ácido lático registrada pelo instrumento 


Y 


30 114 |49|44|45 
73: | 82] 162 

10 | 12,0 | 13,1 | 12,6 | 13,2 

15 | 18,7 | 19,7 | 17,4 | 17,1 


Ds 
1) 141 ]07|%8/|04 
3 
5 


Ajuste o modelo y = Bo + Bjx e teste a hipótese H, : B, = 1 contra a alternativa H, : B, É 1. Tire conclusões com base no 
resultado desse teste. 
26. Sejam X = volume de precipitação pluvial 
Y = produção de trigo por alqueire 

(a) Você acha que um modelo do tipo Y = O + Bx + e seria adequado para essas variáveis? Por quê? 

(b) Caso esse modelo não seja adequado, esboce um gráfico do tipo de relação que você esperaria existir entre X e Y. 
27. Num experimento foram aplicadas três doses diferentes de insulina em coelhos e foram observadas quedas na quantidade de 
açúcar no sangue (variável Y) depois de determinados períodos. Nesse tipo de experimento, é usual admitir-se que a relação entre 
queda de açúcar e o logaritmo da dose da insulina é linear. 


log da dose (X) 


0,36 0,76 


17 |64 | 62 
21 z 
49 61 
54 91 

São dados: 

3x=67; > x2=4,0832; > x,y, =385,16; 

3 »=66; Dy2=38.602; 7=0,56; y=53. 


Faça um estudo completo sobre o ajuste do modelo y = Bo + By + E a esses dados. 


28. A indústria farmacêutica MIMI vende um remédio para combater resfriado. Após dois anos de operação, ela coletou as 
seguintes informações trimestrais: 


Timédiie Vendas (10.000) | Despesas c/Propaganda | Temperatura Média do Trimestre 

(9) (X) (2) 

] 25 1 2 

2 13 5 13 

3 8 16 

4 20 7 

E 25 12 

6 12 6 10 

7 10 » 13 

8 15 4 


>y=128; 5»2=2352; 5yx=1.101; 
>x=60; 3x=502; Dyz=89; 
>,2=69; >2=79; >,x2=397. 
(a) Faça os gráficos (x, y) e (z, y). 
(b) Encontre as retasy = a + bxey=c+ dz. 
(c) Qual das duas você acha estatisticamente mais adequada para prever as vendas? Por quê? 


(d) De acordo com a decisão acima, qual a previsão de vendas para um trimestre em que a despesa de propaganda será 8e a 
temperatura prevista 10? 


29. Para construir um modelo linear relacionando a quantidade de fertilizantes usada (x) e a produtividade obtida (y) com uma 
amostra de sete canteiros, o pesquisador obteve as seguintes estatísticas: 


X=400, y = 60,8, = 216,02,5, = 13,84eF = 0,922. 


(a) Encontre as estimativas do modelo ) = à + Px. 
(b) Construa a tabela ANOVA. 
(c) Analise os resultados. 

30. Obtenha (16.64) e os gráficos que seguem. 


31. Para o Exemplo 16.10, obtenha a tabela ANOVA e os intervalos de confiança para O* e B, ajustando o modelo (16.71). 


32. Ainda para o Exemplo 16.10, obtenha o intervalo de confiança para O. 
33. Para o exemplo da reação ao estímulo: 

(a) construa o IC para a média das pessoas com 28 anos de idade; 

(b) construa o IP para uma futura pessoa de 28 anos de idade; 

(c) compare e ressalte as diferenças dos dois resultados. 


34. Construa o gráfico das regiões de previsão da média e individual (1 - O = 0,95) para o modelo desenvolvido no Problema 3 e 
complementado no Problema 8. A que temperatura a potência média já poderia ser considerada como zero? Compare com a 
resposta dada na questão (d) do Problema 3. 


35. Sejam Y = despesa com viagem, X = duração da viagem (em dias). Para uma amostra com n = 102 obteve-se: 
5 x,=510,5y =7.140; 5x2 =4.150;5 xy, = 54.900; 5 y2 = 740.200;% = 5; = 70. 


(a) Obter a reta y = à + Bx;. 

(b) Qual o significado prático de à e B? 

(c) Uma viagem irá durar sete dias. Quanto o vendedor deve levar para que exista apenas uma chance em dez de lhe faltar 
dinheiro? 


16.10 Complementos Metodológicos 


1. Origem do Termo Regressão. O uso do termo regressão deve-se a Francis Galton, por volta de 1885, quando investigava 
relações entre características antropométricas de sucessivas gerações. Uma de suas constatações era de que “cada peculiaridade 
de um homem é transmitida aos seus descendentes, mas, em média, numa intensidade menor”. Por exemplo: embora pais com 
baixa estatura tendam a ter filhos também com baixa estatura, estes têm altura média maior do que a altura média de seus pais. O 
mesmo ocorre, mas em direção contrária, com pais com estatura alta. Essa afirmação pode ser mais bem compreendida 
observando-se os dados usados por Galton, e representados parcialmente na Figura 16.23. Se as características permanecessem as 
mesmas de geração para geração, esperar-se-ia que a reta de regressão tivesse seu coeficiente angular próximo de 1. Em sua 


análise, Galton encontrou o valor 0,516, mostrando que a reta tende para aquela paralela ao eixo x e passando pela média (y = )). 
A esse fenômeno de a altura dos filhos mover-se em direção à altura média de todos os homens ele chamou de regressão e, às 
vezes, de reversão, tendo aparecido num artigo de 1885, no Journal of the Anthropological Institute, com o título “Regression 
Towards Mediocrity in Hereditary Stature” — Regressão para a Mediocridade em Estaturas Hereditárias; mediocridade, aqui, 
referindo-se a média. 


Figura 16.23 Média da altura de filhos contra altura composta dos pais, baseada no estudo de Galton. 
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2. Vamos provar que o coeficiente angular 8 da Fórmula (16.14) pode ser escrita como 


DE-D-D) S, 
XG-=)  & 


>» 


De (16.14) temos: 


P= 5x), =nxy 
DEE 


Mas, 
D(x-=)(n-5)=D (um -3x +27) 
=5xn-55 95 x +08) 
=P ny + =D xP. 
De modo análogo, 


S(g-*)=D x2-n?. 


Definindo-se s,, = + (x -x)(»—7)e 


a demonstração está completa. 
3. Vamos provar (16.30), ou seja: 


X0-7'=X(,-5)+Xa- 

De (16.29), 

XY Pty ED), 
e elevando ao quadrado ambos os membros e somando-os, obtemos 

>(m -5)'= 2 + (hi -») +25 (5; -P)ê. 
Mas, como 

Y=y+Bm-x)ee",=y;)— Blx,- x), 

teremos 

Dê (5-5)=>[(1-5)-B(x-=)[B(x -x)] 

=> (1-5)(x,—2)-B> (x —2)'. 
Usando a expressão de B, do Problema 30, obtemos 
Sa(»,-5)=0, 

o que demonstra a expressão. 
4. Mostremos que E(S,) = 02,. 


Vamos decompor a demonstração em três partes: 
(a) Vejamos quanto vale E(SQTot). Temos: 


Y-a+bBx+e,i=1,2,...,n;e;- NO, 02,). 
Somando as n parcelas em cada membro e dividindo por n, obtemos: 
-Y=a+Bx+-e,-e- N(0;02/n), 
e, ainda, 
K-Y=B(x-x)+e-e, 
SQTo=5(K -F)' 
= > (x, ==) +le -2) 
+ 285 (x, -x)(a-e). 
Calculando a esperança, teremos: 
E(SQTot)=ºS (x, x) +E[S(e, -E) | 
+28> (x, -X)E(e E) 
=> (x,-*) +E[D(e -e)' |+o. 


Mas 


n 


e-2) | 
E[(e,-2)'|=(n- pa 2658 nos 


pois é equivalente à variância de uma amostra aleatória simples de tamanho n, retirada da população N(0, O Sa e já vimos que 


essa é a expressão de um estimador não viesado da variância O e Então: 
E(SQTo) =B:S(x,-X) +(n-1)oi. 
(b) Vamos calcular agora E(SQReg). De (16.33), 
SQReg = > (x, —)' 
e de (16.37), 


Mas da definição de variância, sabemos que 
Var(p) = E(g2) — E2(B) = E(82) - B2 


pois E(B) = p. Combinando estas expressões, teremos: 


E[SQReg]=5 (x, -*/ E(P)= [v ar(B)+B | S(x-* 


EDER 


=0:+P5 (x, -*) 
Explicitamente, E[SQReg]= 02 +82 > (x — x). 
(c) Finalmente, como 
SQRes = SQTot -SQRes, 
E[SQRes]=|B:5 (x, — x)" + +(n—1)o2 a:]- [62+8 5 (x,— =X) E 
E[SQRes]= (n-2)02 


a partir de que podemos escrever: 


ou seja, 


é estimador não viesado de O2,. 
5. Vamos, agora, provar que Cov(-Y, B) = O 
(a) Inicialmente vamos provar que, se X e Y são independentes, U= aX + bYe V= mX + nY, então 
Cov(U, V) = amvVarçÃ) + bnVar(Y). 
Sabemos que Cov(U, V) = E(UV) - E(U) - E(V), 
E(U) =aE(X)+bE(Y), 
E(v) =mE(x)+nE(y), 
E(uv) = El(ax +bY) (mx + nY)] 
= amE(X2)+ anE(XY)+ bmE(XY)+ bnE(Y?). 
Substituindo na expressão da covariância, teremos: 
Cov(U,V) = amE(X2)+bnE(Y2)+(an+bm)E(XY) 
-[amE? (x) + bnE? (7) + (an + bm) E(x) E(7)] 
= am[E(Xx?)-E(x)]+bn[(E(Y?)- E:(7)] 


+(an + bm)[E (xy) - E(x)+ E(y)] 
= amVar(x)+bnVar(y), 


e o último termo desaparece, pois as variáveis são independentes. A expressão pode ser generalizada quando X,, X5, ..., 


independentes, com 


X, são 


então, Cov(U, V) = Lajb;Var(X;. 
Quando Var(X;) = 02, temos: 


(b) Cov(-Y, B) = 0. 
Sabemos que: 


então 


U=aX +aX, +..taX => ax, 
V=bM,+5,X,+..+5,X, =D DX, 


Cov(U,V)=025 ap. 


Cov(F,B)=Cov(D ar,D mk)= > amVar(X) 


=cib aw=0, 


pois 5 am, =(1/n)> w =0, o que demonstra a propriedade. 
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CONJUNTOS DE DADOS 


A seguir apresentamos vários conjuntos de dados, que serão referenciados no texto pela sigla 
CD acompanhada de um nome identificador. 
CD-Brasil: Dados sobre o Brasil 
CD-Municípios: Populações de Municípios do Brasil 
CD-Notas: Notas em Estatística 
CD-Poluição: Dados de Poluição de São Paulo 
CD-Temperaturas: Temperaturas Médias Mensais 
CD-Salários: Salários para Quatro Profissões 
CD-Veículos: Estatísticas sobre Veículos 
CD-PIB: Produto Interno Bruto do Brasil 
CD-Mercado: Preços de Ações da Telebrás e IBOVESPA 
CD-Placa: Índices de Placa Bacteriana 


1. Dados sobre o Brasil 


Dados de superfície (em km?), população estimada e densidade (hab/km?) das unidades 
federativas (UF) do Brasil, por região. 


Regiões | UF Superfície População Densidade 
Norte RO 237.576,167 1.453.756 6,12 
AC 164.165,250 653.385 3,99 

AM 1.559.161,810 3.221.040 2,07 

RR 224.298,980 395.725 1,76 

PA 1.247.689,515 7.065.573 5,66 

AP 142814,585 587.311 4 

| TO 277.620,914 | 1.243.627 | 4,AB 

Subtot 3.853.327 14.623.317 3,79 

Nordeste | MA 331.983,293 6.118.995 18,43 
PI 251.529,186 3.032.435 12,06 

CE 148.825,602 8.185.250 550 

RN 52.796,791 3.013.740 57,08 

PB 56.439,838 3.641.397 64,52 

PE 98.311,616 8.486.638 86,32 

AL 27.767,66] 3.037.231 109,38 

SE 21.910,348 1.939.426 88,52 

BA 564.692,669 14.080.670 24,94 

Subtot. 1.554.257 51.535.782 33,16 


199.314,850 
95.346,181 


281.748,583 


Fonte: IBGE, Contagem da População, 2007. 


2. Populações de Municípios do Brasil 


Populações (em 10.000 habitantes) dos 30 ii mais populosos do Brasil. 


São Paulo (SP) Nova Iguaçu (RJ) 


| 
2 | Rio de Janeiro (RJ) São Luís (MA) 80,2 
3 Salvador (BA) ' Maceió (AL) 747 
4 | Belo Horizonte (MG) ) Duque de Caxias (RJ) 727 
5 | Fortaleza (CE) 20 | São Bernardo do Campo (SP) 684 
6 | Brasília (DF) 21 | Natal (RN) 668 
7 | Curitiba (PR) 2 | Teresina (PI) 66,8 
8 Recife (PE) B | Osasco (SP) 637 
9 | Porto Alegre (RS) 24 | Santo André (SP) 628 
10 | Manaus (AM) 25 | Campo Grande (MS) 619 
N Belém (PA) 26 | João Pessoa (PB) 56,2 
I2 | Goiânia (GO) 7 | Jaboatão (PE) 54,1 
13 | Guarulhos (SP) 28 | Contagem (MG) 503 
Campinas (SP) 29 | São José dos Campos (SP) 
São Gonçalo (RJ) 30 | Ribeirão Preto (SP) 


Fonte: IBGE, Contagem da População, 1996. 


3. Notas em Estatística 


Notas de 100 alunos do curso de Economia da FEA-USP, em prova da disciplina Introdução à 
Probabilidade e à Estatística, 1999. 


35 100 
65 60 
50 75 
85 85 
45 60 
75 100 
40 55 
65 55 
30 60 
25 50 


Fonte: Autores. 


4. Dados de Poluição de São Paulo 


Dados de poluentes na cidade de São Paulo, 1º jan. a 30 abr. 1991. 
CO: monóxido de carbono (ppm); O,: ozônio (ppb) 


Temp.: temperatura (ºC); Umid.: umidade relativa do ar ao meio-dia (%) 


Data | CO | O, | Temp. | Umid | Data | CO | O, | Temp. | Umid. 
Jan. 1 5 || 2 
2 s | w 
3 el m 
4 % || 2% 
5 e || 3 
6 q || % 
7 a | 7 
8 e || » 
9 n | » 
10 a | » 
n o | a 
12 76 
13 é2 
14 78 
15 90 
ló 73 
17 94 
18 78 
19 62 
20 66 


Data | CO | O, | Temp. | Umid. | Data | CO | O, | Temp. | Umid. 
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Fonte: Saldiva et. al. (1994). 


5. Temperaturas Médias Mensais 


Temperaturas médias mensais, em graus centígrados, de janeiro de 1976 a dezembro de 1985, 
em Cananeia e Ubatuba, São Paulo. 


Fonte: Boletim Climatológico, nº 6, 1989, IO-USP. 


6. Salários 


Salários, em 1979 (em francos suíços), para quatro profissões, em 30 cidades de diferentes 
países. 


Fonte: “Prices and Salaries Around The World”, 1979/1980. União dos Bancos Suíços, Zurique. 


7. Estatísticas sobre Veículos 


Dados sobre 30 veículos novos, nacionais (N) e importados (1) em março de 1999. Preço em 
dólares, comprimento em metros e motor em CV. 


LET ZZZ---Z-TX--ZIZZZ-Xo-zZzZo = 


Fonte: Folha de S. Paulo, 14 mar. 1999. 


8. Produto Interno Bruto do Brasil 
Dados anuais do PIB, de 1861 a 1986; índices relativos a 1949. 


Ano PIB Ano PIB 
1871 6.56 1967 266.58 
1872 6.55 1968 291.37 
1873 6.72 1969 317.59 
1874 771 1970 34777 
1875 7.88 IgA 386.99 
1876 7.98 1972 433.62 
1877 7.30 193 49429 
1878 72 1974 538.96 
1879 78 1975 547.05 
v880 7.88 1976 62437 
1881 7.62 1977 65271 
1882 686 1978 683.46 
1883 6.65 1979 749.82 
1884 6.54 1980 799.6] 
1885 72 1981 77285 
1886 8.07 1982 779.94 
1887 B.94 1983 760.20 
rage 9.25 1984 803.53 
1889 9.59 1985 849.90 
1890 9.44 1986 941.26 
1891 9.35 

1892 92.15 


9. Mercado 


Preços de fechamento de ações da Telebrás (multiplicados por 1000) e índice diário da Bolsa 
de Valores de São Paulo (dividido por 100), de 1º de janeiro de 1995 a 29 de junho de 1995. 


2 20,96 2989 
3 21,42 2988 
6 24 286 
7 18,43 2616 
8 1684 43 
9 1506 2138 
o) 21,05 
3 07 UN 
14 330 3)WI7 
15 29 2039 
16 375 34 
7 208 2981 
mw 2414 2870 
2 ZA WO% 
2 236 WO 
B BS 3146 
24 25,63 34 
y 2573 3 
B 2461 32,56 
» 31,98 
3 24,14 31,26 
31 Da 2979 
Dia Telebrás C 
1 29,53 3774 
2 30,91 39,66 
5 31,50 4063 
[) 39,% 3933 
7 207 3808 
8 2901 38,18 
9 27,51 3671 
12 2816 3705 
13 29,42 3789 
14 788 3665 
ló 2848 3718 
19 2857 3696 
mm 75 357 
19 21 788 3632 
n P4) 70 3599 
B B VJs 3586 
24 2 765 35% 
25 Piá 2880 3661 
26 B 29,21 37,15 
» »m 28,62 3678 
Ed) 


31 


Fonte: Bolsa de Valores de São Paulo. 


10. Índices de Placa Bacteriana 


Medidas de um índice de placa bacteriana obtidas de 26 crianças em idade pré-escolar, antes e 


depois do uso de uma escova experimental e de uma escova convencional. 
Tipo de Escova 


SBovoNamawhN— 


n 


Fonte: Singer e Andrade (1997). 


TABELAS 


As tabelas a seguir são, em geral, autoexplicativas, mas o uso de cada uma está explicado no 
texto. O Manual Explicativo de Pereira e Bussab (1974) pode ser consultado para mais 


explicações. 


1. As Tabelas I a VII são reproduzidas de Pereira e Bussab (1974), com permissão da Editora 


e autores. 
2. A Tabela VIII foi elaborada usando o SPlus e baseada em Lehmann (1975). 


ão da Editora e 


com permiss 


, 


ão adaptadas de Pereira e Bussab (1974) 


3. As Tabelas IX e X s 


autores. 
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Tabela 1 — Distribuição Binomial 
Corpo da tabela dá as probabilidades P(X = j), j 
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Tabela 1 — Distr 


BERESS 
82882 
SEzga 
REREE! 
38358 
8BBss 


Essds 


EJ588 
EREER 
S888s 


Sds ndiiiis co soenseScdcIesnaSASNaSa 


S588 E.) U8SES=88a.| E -BBSSSaESanDARASSSSBEBEEE. 
IEEE EE ERA SBsBSBBESEs SERESESBÊBÊBE Sos 
SBBBsCEõE,. E BBBBBSNSBsESSSSSASDEÊES sos 
B883328E.00 RBESBENSSasSIEISBS BB Esses 
E 5898588... RES HEIBIEROESBESDÊE,aososo 

A BSJEBSESBISSSIEBBEssssssss 
RENSIBRBAACESSESES .sssossss 
BA BBJIRRIIGESBES BB a ssossasss 
SESSERSBASSISEBBE osssodsso 
BEBIZESIBE SEE ssssbsbsboss 
BBBSENSESBEBÊ, ssosssbososo 
SESSSBBBSENBE,sososssososo 
GBARESBESEÊE,sosoossssoboss 
BERRSBESEBE,ososoosbosobodo 
EORRSESBSEEssssssssboasbads 
BRBBS.osos. SRBABBSZEÊ.ssossosobobasodo 


Je-reiifpassemsifp=aeseo seaepesemensannata 


Tabela tl — Distribuição de Poisson 
X- Pois (A) 
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Tabelalll - — Distribuição Normal Padrão 
Z-N(0,1) 
Corpo da tabela dá a probabilidade p, tal que p=P(0<Z<Z) 
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Tabela IV — pe 
F-2(v 
Corpo da tabela dá os valores y, tais que P(Y >y,) =p. 
Para valores v >30, use a aproximação normal dada no texto. 
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Tabela V — Distribuição t de Student 
Corpo da tabela dá os valores 1, tais que P (-t, pad 1-p. 
Para v> 120, usar a aproximação normal. 


p=90% 80% 70% 60% 50% 40% 30% 20% 
O 156 ) 394 1 510 0727 000 176 542 3 078 
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Tabela VI — Distribuição F 
Corpo da tabela dá os valores f, tais que P(F >f)=0,05. 
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12 15 


9,40 
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5,96 
406 
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Tabeta VI — Distribuição F (continuação) 
Corpo da tabela dá os valores f, tais que P(F >) = 0,025. 
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Tabela Vil — Distribuição de Mann-Whitney U, 
O corpo da tabela dá as probabilidades P(U, = u). 
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Tabela IX — Distribuição de Wilcoxon T+ 
O corpo da tabela dá os valores w, tais que P(T* < w) =P 
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O corpo da tabela dá os valores D, tais que P(D| = D) =p. 


1. (a) razão (e) razão 
(b) ordinal (f) nominal 
(c) razão (g) intervalar 
(d) intervalar 


3. População (em mil habitantes) 


Número de habitantes |n;| f; 

Menos de 1.000 3 10,1111 
1.000 a 5.000 12]0,4444 
5.000 10.000 6 10,2222 
10.0000 a 20.000 5 |0,1852 
Mais de 20.000 1/0,0371 


Densidade populacional: 


Densidade (hab./km?)|n;| fi 
Menos de 10 9 10,3333 
10a 30 5 |0,1852 
30 a 50 4 |0,1481 
50 a 100 6 |0,2222 
Mais de 100 3 |0,1111 
Total 27|1,0000 
6. (a) Histograma 
020 
015 
ã 0.10 
Ê 005 
000 - : : 
a a 


(b) Gráfico de dispersão unidimensional 
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8. Histograma 


Capítulo 2 


RESPOSTAS 


0.004 
0.003 
0.002 
0.001 


Densidade 


0.000 
O MO 400 600 800 1000 


População (x 10000) 

Ramo-e-folhas 

Decimal point is 1 place to the right of the colon 
4:6 

5: 0046 

6: 234778 


20:1 

21:1 

225 

Valores maiores: 556.9 998,8 
Gráfico de dispersão unidimensional 


20 400 600 800 1000 
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Gráfico de dispersão unidimensional 


so 100 150 200 


População x 10000 
(sem as duas maiores observações) 


10. (a) Zona Urbana: 


ES 3% 10 I5 
Aluguéis: zonal rural 


Zona Rural: 


0.30 
0.25 
0.20 
0.15 
0.10 
0.05 
0.00 
23 5 7 /1W I5 
Aluguéis: zonal rural 
(b) Os histogramas indicam que os aluguéis dos imóveis localizados na zona rural estão mais concentrados entre os valores 2 e 5, 
diferentemente da zona urbana. Também se percebe que valores entre 10 e 15 estão presentes apenas na amostra retirada da 
zona urbana. Além disso, a distribuição para a zona urbana é menos assimétrica do que a distribuição para a zona rural. 
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13. (a) 
2 
| 36 | 10000 | 
%4 
100 + 
80 - 
(b) so- 
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(c) 25% >» if 31; 
50% > if 35; 
75% > if 42. 


14. 


15. Ramo-e-folhas para a variável CO: 
:77 

:12 

: 55677789 

: 1111122222222233333444444 
: 5666677777899999999 

: 00122233444 

: 5566777778888899999999 

: 012334 

: 55678999 

: 0114 

:557 


(o o o o o o HRS RS o pop O Sp 


Porcentagem acumulada 


— 


20 25 0 
Idade 


10: 1333 
10:8 
11: 469 
12:05 


1. (a) 0,66 
(b) 0,5 
(c) 0,8393 
(e) 330 


2. x=2,6md =2,6dp=0,04 
6. (a) 2 

(b) 2 

(c) x=2,11,, supondo-se o valor 6 para “mais que 5”. 


35 40 45 OD 


Capítulo 3 


24 
d,= 9; di = 14; ds = 14; aproximadamente normal. 
9. q(0,1) = 13,5; q(0,9) = 79,0. 


11. Distribuição assimétrica à direita. 
Desenho esquemático (box plot) dos salários dos funcionários da Companhia Milsa. 
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16. (a) Histograma das vendas semanais de vendedores de gêneros alimentícios 
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Vendas semanais (em S.M.) 


(b) x=s1,2 

(c) s = 6,62 

(d) 94% 

(e) md = 52,5 

17. (a) q(0,1) = 92,4, 

(b) q(0,2) = 102,1, 

(c) q, = 105,7, q, = 135,8, q, = 208,6. 

19. (b) x=3,65;Var=28,19;dp=5,31. 

(c) q, =2,q,= 3,25. 

(d) Média dobra e variância multiplicada por 4. 


(e) Média e mediana aumentadas de 2; variância não se altera. 


21. (a) Receber menos do que 5.000. 

(b) empresa B. 

23. (c) média = 1,75; md = 1,6 

(d) var = 0,963; dp = 0,98 

()q=11 

25. média = 6,9; var = 6,19; 

moda = 9; md = 7; q, = 4,8. 

27. (a) não; x=22,5. 

(b) x-22=0,48;2dp(x)/Vn=1,08; logo, a campanha não surtiu efeito 
(c) Histograma da idade média dos candidatos 


000 


29.Ff1 
31. 8 =32,5; t = 0,03; desempenhos semelhantes. 


36. (a) x=0,305; var =0,218 
(b) x = proporção dos empregados da capital 


(c) Histograma de X 
0.6 
E 04 
5 

8 02 
0.0 

1 , , o 

os 00 05 LO 15 

x 


37. (a) Z é uma nota padronizada. 
(b) As notas padronizadas são: 


(c) =z=0;dp=1 

(d) z = —3,26 

(e) política 

CM2. (a) =(0,1)=10,84;x(0,25)=10,52 


CMB. CV(A) = 20%; CV(B) = 30% 
38. dam (urb) = 1.413.000; dam (rural) = 546.900 


Graf. quantis 


Dados não simétricos; pontos acima da reta u = v no gráfico de simetria. 
43. (a) n= 120; d = 16; A = 5,47 = 16(0,039896)”º. 
(b) n =30; d, = 20.734; A = 7.600 = 

= 20.734(0,049237)'º. 


rá 
Capítulo 4 

1. (b) 50% (d) 58,3% 

(c) 19,4% 

3. (b) 2,5% (d) 12,5% 

(c) 50% 

(e) Bastante modificada; maioria das pessoas que ganham pouco têm alta rotatividade. 

5. Existe relação, pois as probabilidades marginais não se repetem no interior da tabela. 

7.x = 0,67,C=0,81 

8. Problema 3: x” = 5,625, C= 0,351, T = 0,375. 

Problema 6: x” = 11,42, C = 0,075, T = 0,076. 

9. Não há diferenças entre as três empresas. 


11. (b) O gráfico indica dependência linear entre as variáveis. 


(c) 0,86 
(d) Porto Alegre e Fortaleza apresentam comportamentos diferentes dos demais. 
74 , 
je 
82 s | . 2+ 
8 4º 2 , 
13. (a) És! 2 . 
Fal. . 
14 , E 
20 25 30 35 49 
Número de objetos 
(b) 0,74 
15. Seção e Notas de Estatística não são correlacionadas. 
18. (a) 
Salário 
Estado Civil Total 
Menos de 10 S.M. | entre 10 e 20 S.M. | Mais de 20 S.M. 
solteiro 0,12 0,19 0,09 0,40 
casado 0,08 Us] 0,21 0,60 
1,00 


(b) Considere-se a tabela do total de colunas: 


Salário 
Estado Civil Total 
Menos de 10 S.M. | entre 10 e 20 S.M. | Mais de 20 S.M. 
solteiro 0,60 0,38 0,30 0,40 
casado 0,40 0,62 0,70 0,60 
1,00 


Pelas diferenças entre as proporções marginais e as do interior da tabela, diz-se que existe relação entre as variáveis. 
20. 


Atividade 


Costeira Fluvial | |Internacional 


Estatal | 5 (33,64) |141 (129,02)| 51 (34,34) | 197 
Particular|92 (63,64)|231 (242,98)| 48 (64,66) | 371 


Como yº = 51,09, parece existir associação entre o tipo de atividade e a propriedade das embarcações. 

21.y = 18,5; há indicação de relação. 

22. (a) tomando porcentagens por colunas, há evidências de que a distribuição de respostas SIM e NÃO não coincidem. 
(b) x” = 33,63; há dependência. 

(c) xº = 7,01. 


25. Corr(X, Y) = —0,92 

28. (a) xí = 0,0008; logo, não há associação entre os resultados. 
(b) Corr(X,, X,) = 0, de acordo com (a) 

30. (b) v(0,1)=30,2,Var(V)=130,6; há um vendedor excepcional. 

(c) q, = 23,5 


(d) Os box plots a seguir indicam que existe alguma diferença entre a distribuição das vendas nas três diferentes zonas. Assim, 
não é justo aplicar um mesmo critério para todas as zonas. 


ss 


as 
É as 
no EI 
1 2 3 


Zonas 


(e) Corr(T, V) = 0,71, Corr(E, V) = 0,26, logo a nota no teste é variável mais importante. 
(£) x = 3,76; baixa associação. 


34. Os salários da capital têm variabilidade maior e a distribuição mais assimétrica. As médias e medianas são similares. 
20 das 
18 ss | 5 RR [E 
15- 
10+ ] 10+ 
E ER 


Capital Interior Outra 
36. Os box plots da figura abaixo mostram que a região sudeste tem maior mediana e também maior variabilidade, enquanto as 
regiões norte e central apresentam variabilidades menores do que as demais. As distribuições são todas assimétricas. 


ee 
3x 107 
2x 10" 
10” E FE] 
lo" - = 
Norte NE SE Sul Cento 


Capítulo 5 
1.9=((B,C), (B, R), (V, B), (V, V)k em que € = cara e R = coroa. 
2. 9 = (5, (5, 5), (5,5, 5...), em que5 indica qualquer face distinta de face 5. 
4. Q,=((C, C), (C, R), (R, C), (R, R)), 
9,= t0, 1, 2), com q = número de cara nos dois lançamentos. Segue-se que Q, = (C, Rj x (C, RJ. 
5. Q,= ((C, 1), (C, 2), ..., (C, 6), (R, 1), (R, 2), ..., (R, 6)) = 
=(C,R)x(1,2,3,4,5,6) 
7. (a) t(C, R), (R, O), (€, O) 
(b) t(C, C)) 
(c) L(C, R), (R, O), (R, R)) 
9. (a) Dl) =2(1/4) +2(08) +4(119)=1 
(b) P(A vencer) = (1/4) + (1/16) = 5/16 = P(B vencer) 
(c) P(AC BA, BC AB) = 1/8 
10. (a) Siolsis) (1/6)=(1S)AI = 5/6))=1 
(b) (1/6)(5/6)2 = 0,12 
13. Do Problema 7: (a) 3/4 (b) 1/4 (c) 3/4 


Do Problema 12: 

P(A) = 0,11, P(B)= 0,5, P(A E B)= 0,53, 
P(A N B) = 0,08, P(A?) = 0,89. 
17.0,92 

18. (a) 0,56 (b) 0,67 

20. h(p, Do P;) = PCP, + PD; — PoP;) 
22. h(p) = p'(2 — p? 

24. 0,16 

25. 0,56 

26. (a) P(H) = 0,75, P(A|H) = 0,20, P(BIM) = 0,30 
(D)P(ANH=0,15, P(A E H)=0,925 
(c) P(M[A) = 0,538 

28. 0,60 

29. 3/28 = 0,107 

30. (a) 0,0296 (b) 0,0298 

31. (a) 0,165 (c) 0,790 

(b) 0,132 

32. (a) (1/2) = 1/8 (b) (0,9) = 0,73 
33. (a) 0,049 (c) 0,463 

(b) 0,295 

34. (a) 0,375 (c) 0,333 

(b) 0,292 

35. 0,0135 

36. 0,999 

37. 0,36; 0,41; 0,23 

38. (a) 0,086 (b) 0,736 

39. (a) 0,312 (b) 0,58 

40. (a) 0,62 (c) 0,11 

(b) 0,21 (d) 0,29 

41. (a) 0,28 (c) 0,68 

(b) 0,02 


o (E tza) co (esejasa 


44. 0,072 
45. 1 Eye ] 


m+n-—b m+n-b-l 


48. h(p) = p(p'- p'-2p* +2p +1) 


13 23 1 E 
* P(A) = (2/3- 1/2) x 1/2 = 1/6 
* P(B) = 1/2 x (3/4- 1/4) = 1/4 
P(A N B) = (2/3 1/2)(1/2 — 1/4) = 1/24 
“P(A & B)=1/6+1/4-1/24=3/8 
“P(A)=1-1/6=5/6 


“P(B)=1-1/4=3/4 

“P(ANB9=1-P(AW B)=1-3/8=5/8 

53. (N),/Nº 

SS. ()PMAN(BNCO)=PANBNC)= 

= P(a)P(b)P(c) = P(a)P(B N C) 

(DP(A mM BNC=-=PARW B+P()-P(A W B) E CO 

= P(a) + P(b) — P(a)P(b) + P(c) 

—LP(a) + P(b) + P(c) — P(a)P(b) — P(a)P(c) 

— P(b)P(c) + P(a)P(b)P(c)], de onde 

P((A E B)N C)=P(a)P(c) + P(b)P(c) 

— P(a)P(b)P(c) = P(A E B)P(c) 

56. Não, pois P(A N B)R 5/12 e P(A N B)=0 para que A e B sejam mutuamente exclusivos. 

58. NotequeV=(VNU) E (UNVeU mm V=(VN US) E U. Tome probabilidades e a diferença entre elas. 
59. (a) P(A) = 1/2,i=1,2,3e P(A) =0. 

(b) P(A, N A) = 1/4= P(AJP(A), 

mas P(A, NA, NA)=00074)7 A). 

60. P(A, MN... NA)=P(AJP(AA)... PAA N..A, ) 

62.p,em que 1-p=(1-1/365(1 — 2/365) ... (1 — (k — 1)/365) é a probabilidade de todos os aniversários serem distintos. 


63.1-pf 1-2/365 - 3/365-... — (k— 1)/365 — 1/365 + 2/365º + ... e desprezando termos com denominadores 365º, 365” etc. 
obtemos o resultado. 


64. P(AIF) = 0,563, P(CIF) = 0,845. 


Capítulo 6 


Lx Jota )oala. 
| 


Lx Jilrjs al] 
[pk=| 0,50 [0,25 | 0,125 | 0,0625 | .. | 


De modo geral, 
P(X =>») = (1212)! = (1/2), x=1,2,3.. 


5. No contexto apresentado, a distribuição do número de caras é dada por: 


etr=) (rtp)? v-01234. 


7. Problema 1: E(X) = 1,875, Var(X) = 0,502. 
Problema 2: E(X) = 1,875, Var(X) = 0,708. 
8. EY) = 2,0, Var(Y) = 1,0 


E NEREEEEES 


py ja [2 ls]: 
op [us [ar pas | 


EQO=L,5, E(V)=2, Var(X)= 0,75, Var(Y)=0,5 


11.E(V)=1-q, Var(V) = q(1 — q) 
13. Y toma valores 0, 50.000, 100.000, com probabilidades 126/150, 23/150 e 1/150, respectivamente. 
E(Y) = 8.333,33. 
15. A partir do problema 11, tem-se: 
0,v<0 
F(v=1g,0<v<l 
Lvzl 
Gráfico para q = 0,4. 


LO — 
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0.6 
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17. E(T) = 4,6; E(G) = 2,75; Var(G) = 0,4125 

20. 1) X - b(5, 1/3); 2) não é binomial; ensaios não independentes; 3) X será binomial se a proporção de bolas brancas for a 
mesma em todas as urnas; 4) X será binomial se a proporção de pessoas com opinião contrária for a mesma nas dez cidades; 5) 
X será binomial se a probabilidade de obter peça defeituosa for a mesma para todas as máquinas. 

22. (a) 0,2834 (c) 0,2792 

(b) 0,5925 

24. binomial: 0,3758; Poisson: 0,4060. 

26. O gráfico da distribuição de X, p(x), é 
0,30 é ” | 
0.25 


& 0.20 
E os . . 


0.10 


a 


O gráfico da f.d.a de X, F(x), é 


10 E — 


29. duas flores 


31. (a) 0,656 (c) 0,049 

(b) 0,292 (d) 0,996 

32. 0,9418 

33. (a) 0,2013 (b) 0,6242 (c) 0,3222 
34. (a) 0,1428 (b) dois navios (c) 2 
37. Vender por 13,50 reais. 

39. 6,48 

42. (a) 0,705 (b) 0,236 (c) 0,933 
44. (a) 1/3; (b) 7/8; (c) 1/2” 

48.9 x 10º 

50. p= 0,2 

53. A mediana é qualquer valor em (1, 2). 
55. 6.200 


CM2. Basta notar que Y = j se e somente se A ocorre na j-ésima repetição e A ocorre (r — 1) vezes nas (k — 1) repetições 
anteriores. A probabilidade desse evento é 


= — 
dl? ada Rá ras =r,r+l,.. 
r- r- 


Capítulo 7 


1.(b)e? 

3. (a) 1/100 (b) 1*/100 

5. E(X) = 1/2, Var(X) = 1/24 

6. EM)=1, Var(X)=n-1 

8. (a) (7b)(b? + 8) (b) EQO =-3/4, Var(X) = 3/80 


10. (a) 0,375 
(b) 4.000 kg 
(c) 245 kg 


11. EQO = 1/2, Var(X) = 1/4 

13. (b) ED) = (2/3)C, + (1/3) C,- C, 

15. (a) 0,933 (c) 0,683 

(b) 0,977 (d) a = 19,6 

17. (a) 9413 (b) ]164,25; 175,75 

19. P(D,> 45) = 0,31, P(D, > 45) = 0,5; 

P(D, > 49) = 0,121, P(D, > 49) = 0,092 

21. 0,033 

23. 0,1043 

24. 0,9986 

26. 9) = 3/8(y + 0,6), -2,6P yP 0,6; E(Y) = -2,10 
28. (a) 2,47 (b) 0,338 (c) 2,06 

30. Notar que G(u) = P(OP UP u)=u,0PuP1. 
31. (a) 0,4 (c) 0,3 

(b) 0,2 (d) 0,2 

33. 7,70 e 3, respectivamente. 

35. 4,33; 5,54; 6,02 

37. 9,34 

39. (a) 1/2(eº — e) 


40. E(X) = a, Var(X) = 40º/3 

43. (a) FM )) - FA) (0) EM) = 1/3 
(b) 1/2/y,0<y<1 (d) E(Y) = 1/3 
45. (a) Use integração por partes 
(b) idem 

()OMD=LI(1/2)=Vm 

47.E(Y) = 1 

CMS. E(X) =p, usey=1 +. 

51. Q(0,1) = 4,88, Q, = 7,32, Q, 
CMB. (a) 0,051 (b) 0,101 


10, Q, = 12,68, Q(0,9) = 15,12 


Capítulo 8 


1. (a) O = (C1,..., C6, R1, ..., R6J, C = cara, R = coroa; (c) independentes; (d) 1/2, 1, 1/2, 0, 2/3, 1/2 


pe 


«| 110 RS) 
[a [1n2) 0 [1n2/ 16 | 
3.(9)) 0 [16 | 0 H6 | 13 | 
La W4 | 0 | 4 | 482 | 
plx) u2 | 0 |[aR 1 


(b) médias: 0; 1/3; variâncias: 1; 5/9 


| X|Y=0 -1 1 
Oda 05 Ê 05 
yx=1 [alol1 
PQIX = 1)[1/6|2/6|3/6 
5. (a) 1/3, 14/9 (b) a = +10, b = 30 
Psalil2z)3 | 4 | 
"1 11/16/2/16| 2/16 | 2/16 | 7/16. 
& (al 2 | 0 [1/16] 2/16 | 2/16 | 5/16 
3 | 0 | O | 1/16 | 2/16 | 3/16 
4 [0/0 | 0 [116/16 
pl) [1116/3116] 5116 | 7116] 1 


(b) médias: 3,125; 1,875; 5; variâncias: 0,86; 0,86; 2,5 
9. (a) 3,85; 1,46 (b) 3,78; 5,43 
11. Cov(X, Y) = 0,12, p(X, Y) = 0,197 
13. E(XY) = 0 = E(OE(Y), mas X e Y são dependentes, pois P(X = 1,Y=1)=01/4x 1/4 
15. (a) independentes, covariância nula 
(b) médias: 1, 1/2, 3/2; 
variâncias: 1/2, 1/4, 3/4 
16. 0,65 
19. ()f)=eSx>0:A0)=e,y>0 
(b) 4 -ee' —- e?) 
(c) p= 0, pois X e Y são independentes. 
21. Densidades coincidem com as marginais do problema 19(a), pois X e Y são independentes. 
23. fl)=ex>0;f(0)=3:e*,y> 0; logo, independentes; densidades condicionais iguais às marginais. 
25. E(Y|x) = (6x + 16)(3x + 6), 0O< y < 4; 
E(Y|x = 3) = 34/15; 
E(XIy) = (6x + 16)(3y + 6), 0 < x< 4; 
E(Xly = 2) = 7/3 


27. fkz) = (27 + 122-8)/3,1<z<2 
29. fl7)=2(2+2),2>0 
30. E(Z) = 0, Var(Z) = 1/2 


Tata tTo 
32; [ EE ES E 
Leo | 02 | 04 04 | 
y10/1]2 x+y |1/21]3]4 x-y |0]1]2 x-y-1 /-1/0/1 
p(y)|0,4]0,2/0,4 p(x + y)|0,2]0,2/0,4]0,2 p(x-y)|0,2/0,4]0,4 p(x-y-1)|0,2]0,4/0,4 
34. 35% 


36. (a) 0,30; 1/6; dependentes (b) p = —0,512 


39. p(AX + B, CY + D) = P(AX, CY) = 
= (ACU(IACDP(X, Y) = p(X, Y), seA>0,C>0. 


41. 6,17 
44.e*e” = f(x,y), Vx,y>0 
46. EGO =p, Var(X) = on 


Capítulo 9 


1.18 mod 5 = 3, 360 mod 100 = 60. 

3.u; 0,13; 0,65; 0,25; 0,25; ...;h=3 

4.u; 0,19; 0,47; 0,11; 0,43; ...; 0,87; h = 20. 

6. (Xp... X)) = (1,3,2,2,2), seu; 0,11; 0,82; 0,43; 0,56; 0,60 

7x. X0)=(5,3,4,4,4,5,4,6,5,5), seu; 0,57; 0,19; 0,38; 0,33; 0,31; 0,54; 0,38; 0,79; 0,54; 0,55. 

8. Geramos o número aleatório u e x = (u — 1)”; 

x=-0,798. 

9. Para u;: 0,419; 0,885; 0,111; 0,330; 0,036; 0,415; 0,188; 0,061; 0,127; 0,791; obtemos 0, 1, 0, 0, 0,0,0,0,0, 1. 

10. Considere dez experimentos de Bernoulli, E,, ..., E,,; em cada um deles, seja X, - Ber(0,2). Por exemplo, se em E, geramos os 
NA u;: 0,11; 0,82; 0,00; 0,43; 0,56; 0,60; 0,72; 0,42; 0,08; 0,53; então os valores de X, respectivos serão 0, 1, 0, 0,0,0,0,0,0, 
0 e portanto a v.a. binomial éY=0+1+0+...+0=1,e assim por diante. 

11. Usando os u, do problema 9, obteremos: T;: 0,435; 0,061; 1,099; 0,554; 1,662; 0,440; 0,836; 1,398; 1,032; 0,117. 

12. (a) Usando os NA do problema 10 obtemos: 

x, = 0,332; x, = 0,906; x, = 0,000; x, = 0,656; 

x, = 0,748; x, = 0,775; x, = 0,849; x, = 0,648; 
x, = 0,283; x, = 0,728. 

(b) Suponha u, = 0,94; então z, = O'(u,) = —1,56 e portanto x, = 10 + 2z, = 13, 12, etc. 

(c) Para u, = 0,94, temos que t, = 1,711 etc. 

14. Com os valores z, gerados no problema 12(b), calcule w = 2º, + 7º, + Z”,etc. 

17. Para u, = 0,6 e u, = 0,09, calcule z, e z, dadas no método de Box-Miiller, obtendo z, = 0,562 e z, = 0,357. Repita. 

19. [1] Suponha gerado u, = 0,6; [2]r= 3/7 =0,43,;=0, pr = (0,7) = 0,17, F= 0,17. [3] u, > F [4]pr = (0,43)(5)(0,17) = 0,37, F 
= 0,17 + 0,37 = 0,54,j = 1; [5lu, = 0,6 < F, logo coloque x, = 1. Repita para u,, ..., U,. 


23. Suponha os três primeiros valores gerados da Exp (1/2) do problema 11. Então o primeiro valor gerado de X - gama (3; 1/2) 
seria x, = 0,435 + 0,061 + 1,099 = 1,595. Continue. 


Capítulo 10 


1. (a) amostra não aleatória; opinião de operário está relacionada com sua chegada. 


(b) alturas são amostra aleatória. 

(c) amostra viesada. 

(d) não há problemas se os supermercados forem, inicialmente, homogêneos quanto à venda de sabão em pó. 
3. (c) 0,375% 

e jola 
pls) | 7/25 | 10/25 
7. (a) 0,68 (b) 1,00 (d) n = 4 
9. (a) 7,51% (b) 84,13% 


plo 1/8 2/8 3/8 4/8 5/8 6/8 


11. (a) 


pp) | O16s | 0,336 | 0294 | 0,147 | 0046 | 0009 | 0,001 


(b) Y= N(1,6; 1,28) 


(c) razoável, pois n pequeno e p 1) 
(d) p = 1/2 

13. (a) 0,5 

(b) zero 

14. (a) p = 12, Md = 12,0º = 10,8 
(b) 


[= [Er [usp [5s[5 espa] 


distribuição da mediana é igual à distribuição de x. 
(c) E(X) = E(md) = 12 (d) Var(X) = Var(md) = 5,4; qualquer uma 


z ]-259 ]-194 [-129]-065] o [06 | 129 | 194 | 259 
(e) plo | 001 | 004 | 012 | 020 | 026 | 020 | 012 | 004 | 001 
(f) E(Z)=0, Var(Z)= 1 

s ]oo [as [180 [405 | 720 
p(s) | 0,26 [ 040 | 024 | 0,08 
(h) E(S?) = 10,8, Var(S?) = 204,12 

é | 3 1 -0,3 0 0,3 ETs 
pl) | 004 | 02 | 004 | 010 | 004 | 024 | 0,04 


(g) 


(1) 


Note que Xp(t) < 1, pois S = 0, com probabilidade 0,26 e, nesses casos, não podemos definir t. 
()) E(t) = 0, Var(t) = 1,2 (k) P(Jtj< 2) = 0,76, P(lt< 4,3) = 0,74. 
17. n = 1.692 

19. Note que p(1 — p)P 1/4, logo nP n,. 

21. (a) 0,02275 

(b) n = 20, probabilidade = 0,0216 

(c) n = 1, probabilidade = 0,31 

23. (a) 400/n (d) d = 5,16 

(b) 0,617 (e) n = 1.537 

(c) 0,317 

25. (a) 0,2644 (b) 0,16 

27. 0,06% 

29. (a) máx. = 72,28 (c) máx. = 72, mín. = 52 

(b) máx. = 48, mín. = 52 (d) 0,954 

32. (a) Pelo TLC, x - (ua; /n),F - N(u,ci/m) 

(b) E(D)=n,- |, Var(D)=0º/n+oº/m 

(d) D-Ny,-|;; 6º,/n + oº/m 


34. 0,356 
35. A-da-N(p-psp(i-p)/n+ po(i-p;)Jm) 
37. fulm)=nme/0" 0 <m<0 


0=0,X,=3,87 =0,X, =4,8; =2, 

cm4. X,=3,333,83=2,347,X, =3,998,87=3,333 
X,=4,82 =2,510. 

E(P)=N E(X)=Nu=N(T/N)=T, 


39. Var(7:)= NºVar(X)= Nº(o:/n) 


40. Substitua Sº em [3] por s: =x,(1-x,). 


Capítulo 11 


p 20 | 02 0,4 0,6 0,8 10 


+ 


0,32768 | 0,4096 | 0,2048 | 0,0512 | 0,0064 | 0,00032 


P(p) 
E(p)=0,2, Var(p)=0,032. 

3. E(A)=E(A,)=p, Var(P,)=p(1- p)/n,Var(P,)=p(1- p) 

4. P, consistente, P, não consistente 

6. (a) S(p) = 5p” — 76n + 390 

(b)p=7,6 

8. Qo=7-BroBro =(Dle 2,7) Ets -2))- 

10. L(p) = p“(1 — p)'; L(1/5) = 0,0512, L(2/5) = 0,02304, 
L(3/5) = 0,03456, L(4/5) = 0,02048 

12.Dy = *13.Nw=) 

14.y = 0,95: ]167,06; 172,94[ 

y=0,85:]161,81; 168,19[ 

y=0,70:]177,92; 182,08[ 

16. (a) n = 385 (b) n = 666 

18. IC(p; 0,90) = 10,67; 0,73[; conservador: 10,667; 0,733[ 
20. (a) n = 3933 (b) 10,535; 0,566] 

21. (a) t= 1,833; (b) 0,275 (c) 0,422 

23. (a) 1148,37; 151,63[ (b) n = 100 

25. —x = 400; IC para salário médio: ]379,53; 420,47[ 
27. (a) 10,553; 0,647[ 

(b) 2,7% 

(c) A amostra seria impraticável: n = 3.689.473 

29. 10,471; 0,569[ 

30. y = 0,64 

34. Pllkjn—plze)< Var(kin)/2:= p(1- p)jns?. 


36. dy =Loiy =6:=5(x,-) /m. 
cms. (a) V,(0) =-9/(n+1) > 0,n >Pp 
(b) EQM(T) = Var(T,) = 6%/n(n + 2) 
(c) T, consistente 
cm8. (a) 14,941; 5,247[, amplitude L, = 0,306 
(b) 14,944; 5,244[, amplitude L, = 0,300 
(c) igual a (b), amplitude L, = 0,300. 


Como n = 1.000, intervalos de (b) e (c) são iguaise L,=L,<L,. 
37. 110,19; 10,41[ 
39. À =X vim =6. 


Capítulo 12 
2. (a) «= 9,18% 
(b) B = 6,68% 
(c) RC=[r:x>1171,43) 
4.q= 0,125, B = 0,7037 
5. (9) H,;: p=200,H,:p=210 
(D)RC=[z:x>205J;a=[=0,106 
7.H:n=60,H,:p<60; RC=[r:x<49,03); não rejeitaria H,: não há evidências de melhoria. 
9.H: pR23,H,:p 4.23; RC = Ep, -1, 28], Z,, = 1,3, não rejeitamos H.. 
10. à = 0,11; logo, não rejeitamos H,: p = 0,5. 
13. Como à = 0,010, rejeitamos H,: p = 1/4 e o programa deve ser modificado. 
16. à = 0,345. 
17. à = 3,6%; logo, a técnica é melhor que a anterior. 
19. RC= (y: xP 14,85 ou PR 32); X, 
21. (a) t= 1,833 
(b) 0,275 
(c) 0,422 
22. 4P 0, donde rejeitamos H,: p = 100, —x = 85 min. 
24. (a) IC(y; 0,95) = 136,04; 47,03[ 
(bd) X-p)vn/S-t(n-1). 
26. RC=[*:*<26,30ux>337);x=50,4; rejeitamos H, 
IC = (y; 0,95) = 146,7; 54,1[ 
27. Zys = 2,22; logo, rejeitamos H,: n = 11. 
30. (a) nP 35 
(b) RC=[x:x> 205,6) 


= 30,67; logo, a variância não mudou. 


obs 


32. ty, = 4,75; logo, rejeitamos H,: q = 7; 
IC = 18,99; 12,61[ 

34. (a) nP 271 

(b) 10,35; 0,45[. 

36. Xas 
38. (a) à = 0,055 
(b) bilateral = 0,11 
39. (a) à = 0,633 
(b) bilateral > 1 


= 19,2; logo, rejeitamos H,: o” = 25. 


Capítulo 13 


1. (a)a=4,77 (b) b= 0,95 


3. Aceitamos H,: o”, = 0”,; logo, as duas fábricas são igualmente homogêneas. 


5. Aceitamos H,: o”, = o”, e rejeitamos H,: |, = |, logo, a população de homens e mulheres tem idades médias diferentes. 
Supomos populações normais. 


7. Aceitamos H,: o”, = o”, e rejeitamos H,: |, = Hp; ty, = —2,133; logo, os dois tratamentos são diferentes; B é mais eficaz. 
9. Aceitamos H;: o” =0º,eH, |, = | ty, = 0,63 

10. Wo = 87,2. 
12. (a) 0,8170; 0,8051 
(b) 0,18; 0,16 

(c) 0,9996; 0,9924 

15. a =0,5 


17. vas = 2,37; logo, rejeitamos H.. 


=-1,36; aceitamos H,: |, = |; à = 0,09 (unilateral) 


18. v,, = 2,03; logo, rejeitamos H.. 


19. Supondo normalidade, t,,. = —0,83; aceitamos H,: q, = 0; à = 0,42. Usando Wilcoxon, z 
à = 0,41. 


x — 0,83, 

25. Não rejeitamos H,: q, = Hy ty, = 0,65; a produção diurna é mais homogênea, mas a produtividade média é a mesma. 

28. (a) IC(y, — 4; 0,95) = 10,06; 1,94] 

(b) amostras de duas normais independentes, com variâncias desiguais desconhecidas. 

30. (a) Não rejeitamos H,: y = 7,6e H,: p = 6,5; logo, as amostras servem para justificar as afirmações dos dois grupos. 

(b) Aceitamos H,: q, = |, ty, = 1,33; logo, os salários médios dos dois grupos são iguais. 

32.H:n,=0,H:y,<0; ty, =-2,09, v = 4 gl1.; logo, aceitamos H,; não há evidências de que a droga reduza a pressão; a 
variabilidade é muito grande. 

33. ty = —2,42, v = 132 g.1. (usamos a normal!); rejeitamos H,: |, = Ho. 

35. (a) IC(p, — p;; 0,90) = 10,433; 0,567[; como o zero não pertence ao IC, rejeitamos a hipótese de igualdade de opiniões nas 
duas cidades. 

(b) IC = 10,466; 0,534[ 

37. (a) ty, = —2,12, aceitamos H,: q, = H à = 0,06 

(b) W, = 58, zw, = —1,66, aceitamos H,; à = 0,05 

39. (a) tw. = 1,36, aceitamos H,: n, = H, versus H : |, > H; à > 10% 

(b) W, = 121, z,, = 1,22, aceitamos H,, à = 11% 


41. P(W,R 35) = P(WR 33 +2)=P(WP 33-2) = P(W,P 31) 
43. ty = 7,813, 4 P 0, IC (u,; 0,95) = 10,829; 1,423[ 


Capítulo 14 


1. x». = 8,96; logo, não rejeitamos H,, para o nível a = 0,05. 
3. X = 0,563; o valor tabelado, com 2 g.l., para o nível a = 0,01 é 11,34; logo, os dados estão de acordo com o modelo. 
5. X a. = 8,17; logo, o dado é balanceado. 
6. X = 6,95; as duas populações são homogêneas, mesmo com a = 0,01; à = 0,078. 
8. As duas drogas são igualmente eficazes: qui-quadrado observado é 1,34. 
10. x». = 19,67; logo, a opinião depende do local. 
12. XY». = 33,63; portanto, a tendência de o aluno prosseguir os estudos depende da classe social. 
13. x, = 4,04, e para o nível « = 0,05 rejeitamos a hipótese de que homens e mulheres têm a mesma fidelidade. 
15. Tx = 2,37 e rejeitamos H,: p = 0; IC(p; 0,95) = 
= 10,04; 0,873[. 
17. X'w« = 51,4; logo, o tipo de atividade está relacionado com o tipo de propriedade de embarcações. 


19.x 


obs 


= 101,75 e 4P 0; logo, a preferência pelos sexos não é a mesma. 


obs 


21.r= 0,87, Tu, = 4,24; logo, rejeitamos H,: p = 0; o intervalo de confiança para p, com coeficiente de confiança 0,95, é 10,414; 
0,975[. 

23.r= 0,41; & = 0,4356; a região crítica é RC = 
= (6:€< 0,071), no nível « = 0,05. Logo, a correlação entre os salários é menor que 0,6. 

24. H;: p(X, Y) = 0; H';: p(X, Y) = 0. Os valores amostrais são r(X, Y) = 0,949 e r(X, Y) = 0,707. Portanto, rejeitamos as duas 
hipóteses. 

26. P(X,=5,X,=2, X,=3) = 0,064. 


Capítulo 15 


2. Exemplo 15.2: p” = 3,16; à, = 0,22; à, = —0,93; à, = 0,50 

Exemplo 15.3: p” = 10,70; à, = 1,63; à, = —2,67; à, = 1,03 

3. IC(p; 0,95) = 177,9; 89,8[; IC(o”; 0,95) = 1100,1; 356,57. 

4. Fo = 2,197; p-valor = 0,15; o tipo de escola não tem influência. 

5. F = 6,18; p-valor = 0,02; o período influencia. 

6. Fa, = 92,2; p-valor'P 0,001; há diferença de rendimentos entre as duas categorias. 

8. Não, pois F,, = 1,038 e p-valor = 0,37. 

9. (a) Sim, pois F,,, = 487,23 e o valor tabelado de F(2,77), com a = 0,05, é 3,11. 

(b) 8,43 + 0,36 

10. Não há evidências, pois F,,. = 3,90 e o valor tabelado de F(1,8), com a = 0,05, é 5,32. 

11. Existe evidência de efeitos distintos, pois F,,. = 29,7/9e 0 p-valorP 0,001. 

Bonferroni sugere |, = |, > By = Hy- 

12. Sim, F.,, = 16,47, p-valor < 0,001. Bonferroni indica p,. = p, < |, = Pá =P, 

13. Há evidências de que as médias são diferentes, pois F,, = 6,05 e p-valor = 0,008. 

Bonferroni sugere |, = | < |. 

16. Rejeitamos a hipótese (F,,. = 59,0; o valor tabelado = 
= 3,11). Por Bonferroni, teríamos |, < |, < Ho 

17. Não deve ser um único autor (F 
H, = Hs E, = Ho 

21. M/C = 2,01, p-valor = 0,367; os grupos são homocedásticos. 

23. IP(Y,; 0,95) = 1102,77; 131,73[; IC(p,; 0,95) = ]110,77; 123,73[ 


0» 


= 6,71, valor tabelado = 3,03). Possibilidades sugeridas por Bonferroni: |, = |, < H; |,= 
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1. (a) z,= 101,50 — 0,55x, 
(b) Sim, para o indivíduo 19. 
2. (a) y, = 6,87 — 0,26x, 
3. (b) Y, = 50,46 — 0,38x, 
(c) 132,4º 
5. (a) Sº= 100; S”, = 88,75 
(c) Rº = 18,9% 
(b) Não (p-valor = 8%) 
6. (b) , = 0,662 + 0,539x, 
(d) Sim; S”, = 1,023 e Sº = 22,018. 
(e) Sim, p-valorP 0,00%. 
10. (a) 1-1,18; 0,08[ 


(b) 182,21; 120,79 
(c) EF. = 3,41, p-valor = 0,08; logo, não rejeitamos À = 0. 
16. (a) 182,84; 100,32[ 
(b) 180,59; 89,41[ 
(c) 129,90; 93,10[ 
17. 16,832 + 0,876 
18. (b) ),= 32,12 -2,52x, 
(d) encontra-se sobre a reta 
(e) 116,95; 22,09 
22. (a) Y, = 323,62 + 131,72x; F.,. = 13,68, valor tabelado F, = 3,07, rejeito H,: B = O 
(c) 982,2 + 147,2 
(d) ty, = 0,16, t, = 1,753. Não há evidências para rejeitar H.. 
25. y = 0,159 + 1,228x; t,, = 4,85, t, = 2,101. Rejeita-se H,. 
28. (b) y = 1,312 + 1,958x; y = 25,710 — 1,126z. 
(c) maior p-valor 
(d) 16,98 + 1,89 
31. IC(o”; 0,95) = 15,03; 5,51[, IC (B; 0,95) = 10,24; 0,32[ 
32. IC(o; 0,95) = ]153,40; 247,54 
33. (a) IC(p(28); 0,95) = 1102,98; 108,43 
(b) IP(Y(28); 0,95) = 193,64; 117,76l 
35. (a) y = 10 + 12x 
(c) 106,97 


